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@Lisp 会 是 未 来 的 发 展 趋 势 吗 ? 
@Go 和 Dart 能 取代 C 和 JavaScript 吗 ? 
@ 关 系 型 数据 库 已 经 走 到 穷 途 末 路 了 吗 ? 
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数据 的 冲击 》、《 Android 应 用 开发 
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内 容 提要 
本 书 是 Ruby 之 父 松 本 行 弘 的 又 一 力作 。 作 者 对 云 计 算 、 大 数据 时 代 下 的 各 种 编程 语言 以 及 相关 技 
术 进 行 了 剖析 ， 并 对 编程 语言 的 未 来 发 展 趋势 做 出 预测 ， 内 容 涉 及 Go、VoltDB、node.js、CoffeeScript、 
Dart、MongoDB、 摩 尔 定律 、 编 程 语言 、 多 核 、NoSQL 等 当今 备 受 关注 的 话题 。 
本 书面 向 各 层次 程序 设计 人 员 和 编程 爱好 者 ， 也 可 供 相关 技术 人 员 参 考 。 
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译 者 序 


依靠 其 简洁 、 优 雅 的 语言 特色 ， 以 及 Rails 等 开发 框架 的 成 功 ，Ruby 
在 Web 开发 领域 早已 成 为 一 种 人 气 颇 高 的 动态 脚本 语言 。 然 而 ， 当 今世 界 
上 流行 的 编程 语言 中 ， 只 有 Ruby 来 自 亚洲 ， 作 为 Ruby 语言 的 发 明 者 ， 松 
本 行 维 ( Matz ) 表示 自己 常 因 此 而 感到 孤独 。 





作为 这 本 书 的 译 者 ，2012 年 11 月 借 中 国 Ruby 大 会 的 机 会 ， 我 有 幸 
以 图 灵 特 派 记者 的 身份 对 Matz 进行 了 一 次 专访 "。 穿 着 UNIQLO 的 格子 
衬衫 ， 充 满 技 术 宅 范 儿 的 Matz， 平 时 看 起 来 不 苟 言 笑 ， 谈 起 技术 话题 来 就 
好 像 打 开 了 话 匣子 一 般 滔滔 不 绝 ， 在 Twitter 上 的 发 言 也 相当 活跃 。 在 访 
谈 中 ，Matz 谈 到 了 Ruby 的 发 展 方向 ， 他 希望 Ruby 能 够 在 Web 开发 之 外 
的 领域 ( 科学 计算 、 高 性 能 计算 和 骨 入 式 系统 ) 有 更 多 的 发 展 ， 同 时 他 也 
希望 中 国 的 程序 员 们 能 够 积极 为 开源 社区 做 出 贡献 ， 努 力 成 为 能 够 影响 世 
界 的 工程 师 。 











Matz 一 直 称 自己 是 一 个 普通 的 程序 员 ， 创造 Ruby 只 不 过 是 他 编程 
生涯 中 的 一 小 部 分 。 无 论 是 以 “资深 UNIX 程序 员 ” 的 映 份 ,还 是 “Ruby 
之 父 ” 的 身份 ，Matz 都 有 足够 的 资格 对 现今 的 编程 语言 和 技术 品 头 论 足 ; 
另 一 方面 ， 计 算 机 技术 的 发 展 可谓 日 新 月 异 ，Matz 认为 有 必要 从 过 去 到 未 
来 ， 以 发 展 的 眼光 来 看 待 这 些 技术 的 演进 。 用 资深 程序 员 的 视角 和 发 展 的 
眼光 来 剖析 技术 ， 这 就 是 Matz 笔下 的 《代码 的 未 来 》 














在 这 本 书 中 ，Matz 将 和 大 家 一 起 探讨 丰富 多 彩 的 技术 话题 ， 并 对 编程 
语言 的 未 来 发 展 趋势 做 出 自己 的 预测 。 像 Lisp 这 样 拥有 最 简 核 心 的 函数 型 
语言 真 的 会 是 未 来 的 发 展 趋势 吗 ? 垃圾 回收 、 闭 包 、 高 阶 困 数 、 元 编程 等 
编程 语言 中 的 要 素 是 如 何 发 展 出 来 的 ? Google 为 什么 要 开发 Go 和 Dart， 
它们 能 取代 C 语言 和 JavaScript 吗 ? 大 数据 时 代 经 常 提 到 的 Hadoop、 
MapReduce 、NoSQL 等 名 词 到 底 是 什么 意思 ? 关系 型 数据 库 真 的 已 经 走 到 
穷 途 末路 了 吗 ? 要 充分 运用 多 核心 和 分 布 式 环境 ， 在 软件 层面 需要 做 出 怎 
样 的 应 对 ， 又 有 哪些 技术 可 以 使 用 ? 如 果 你 对 上 面 这 些 话题 感 兴趣 ， 无 论 
心中 是 否 已 经 有 了 自己 的 答案 ， 都 可 以 看 一 看 来 自 Matz 的 解读 。 

































































Qa 访谈 内 容 参 见 图 灵 社 区 : http://www.ituring.com.cn/article/17487。 
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和 《松本 行 弘 的 程序 世界 》 一 样 ， 这 本 书 也 是 Matz 在 《日 经 Linux》 和 杂志 连载 的 专栏 文章 
的 一 个 合集 ， 书 中 选取 的 文章 之 间 有 近 四 年 的 时 间 蜂 度 ， 且 章节 的 安排 也 和 原稿 写作 的 时 间 顺 
序 有 所 不 同 。 不 了 解 这 个 背景 的 读者 ， 可 能 会 被 书 中 一 些 貌 似 前 后 重复 或 者 “穿越 ”的 地 方 搞 
得 一 头 雾 水 一 一 少 安 组 躁 ， 这 不 是 bug。 相 比 《 松 本 行 弘 的 程序 世界 》 的 14 个 主题 来 说 ， 这 本 
书 的 主题 更 加 集中 和 这 入 ， 而 不 变 的 是 ， 话 题 依然 丰富 ， 观 点 依然 犀利 ， 内 容 依然 扎实 ， 读 起 
来 畅快 淋漓。 


最 后 ， 感 谢 Matz 在 本 书 翻 译 过 程 中 所 给 予 的 帮助 和 指导 ,感谢 图 灵 公 司 各 位 编辑 的 辛苦 工 
作 , 希望 每 位 读者 都 能 够 从 中 有 所 收获 。 


























周 自 恒 
2013 年 3 月 于 上 海 
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中 文 版 序 


人 类 的 力量 是 有 限 的 ， 无 法 完全 通晓 未 来 ， 因 此 我 们 并 不 能 确切 地 知 
道明 天 、 明 年 究竟 会 发 生 什么 事 。 











不 过 ， 仅 就 技术 来 说 ， 一 夜 之 间 就 冒 出 个 新 东西 ， 这 样 的 情况 是 非常 
罕见 的 ， 而 大 多 数 新 技术 都 是 沿 着 从 过 去 到 现在 的 技术 轨迹 逐步 发 展 起 来 
的 。 在 开 的 世界 中 ,这 样 的 倾向 尤其 显著 。 


《代码 的 未 来 》 综 述 了 我 当前 掌握 的 IT 趋势 ， 书 中 就 摩尔 定律 、 编 程 
语言 、 多 核 、NoSQL 等 在 未 来 几 年 中 将 备 受 关注 的 领域 , 介绍 了 相关 的 
现状 和 基础 知识 。 








当然 , 没 人 知道 书 中 涉及 的 这 些 技术 在 更 久远 的 未 来 是 否 还 依然 有 用 ， 
但 至 少 在 不 远 的 将 来 ， 它 们 应 该 是 非常 值得 关注 的 技术 。 这 些 内 容 可 以 成 
为 学 习 新 技术 的 基础 ， 对 于 想 要 成 为 优秀 工程 师 、 程 序 员 的 各 位 读者 来 说 ， 
这 样 的 基础 则 能 够 成 为 生存 竞争 中 的 有 力 武器 。 


也 许 还 有 一 些 读者 并 非 专 职 的 程序 员 ， 但 我 认为 本 书 同样 值得 他 们 一 
看 。 所 谓 技术 ， 就 是 用 来 解决 现实 问题 的 手段 。 与 现实 问题 展开 的 这 场 拉 
锯 战 ， 本 吴 就 是 一 件 非常 刺激 和 快乐 的 事 ， 而 这 份 快乐 ， 也 正 是 带动 未 来 
创新 的 源 动 力 。 














互联 网 和 开源 降低 了 参与 创新 的 门槛 。 即 便 没有 高 学 历 ， 即 便 不 属于 
任何 一 家 企业 ， 只 要 有 技术 和 点 子 就 有 机 会 。 可 以 想象 ， 未 来 的 创新 就 应 
该 是 这 样 。 就 开 方 面 来 说 ， 我 认为 大 多 数 的 创新 应 该 都 不 外 乎 是 本 书 介 
绍 的 这 些 技术 的 延伸 。 











有 人 说 21 世纪 是 亚洲 的 世纪 。 作 为 一 个 亚洲 人 ， 我 开发 的 Ruby 语言 
已 经 在 全 世界 获得 了 广泛 的 应 用 ， 这 也 许 从 某 种 程度 上 印证 了 这 种 说 法 。 
这 本 书 中 包含 了 我 的 一 些 思 考 和 见解 , 如 果 它 能 够 对 亚洲 〈 疏 怕 应 该 是 吧 ) 
各 位 读者 的 创新 有 所 帮助 ， 我 会 感到 荣幸 之 至 。 


最 后 ,希望 中 国 的 各 位 读者 能 够 从 本 书 中 获 益 。 




















/| 








松本 行 弘 
2013 年 4 月 
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本 书 是 在 《日 经 Linux》 上 连载 的 《松本 行 弘 : 技术 的 剖析 》(2009 
月 号 ~ 2012 年 6 月 号 ) 各 期 内 容 的 合集 。 
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CN 


老实 说 ， 写 文章 这 件 事 很 是 让 我 头疼 。 我 认为 自己 的 本 职工 作 是 程序 
员 ， 而 不 是 作家 。 每 个 月 构思 一 个 主题 、 查 阅 资料 、 编 写 示 例 程 序 ， 然 后 
再 写成 文章 ， 这 件 事 对 我 来 说 真是 个 负担 。 时 间 被 占用 ， 拖 累 了 本 职工 作 
不 说 ,截稿 日 前 夕 还 得 承受 压力 。 因 此 那 一 阵子 经 常会 感到 无 比 焦虑 。 


























话 虽 如 此 ,但 这 件 事 也 并 非 一 无 是 处 。 在 构思 文章 主题 的 时 候 ， 需 要 
放眼 于 日 常 工 作 以 外 的 世界 ,这样 便 拓宽 了 视野 。 其 实 ， 我 本 来 也 并 不 是 
那么 讨厌 写 文 昔 。 说 起 来 ， 在 学 生 时 代 我 成 绩 最 好 的 科目 还 是 语文 和 英语 
呢 ， 而 最 差 的 科目 则 是 数学 。 











因为 是 给 杂志 社 供稿 ， 所 以 我 每 个 月 都 是 选择 当时 那个 时 间 点 上 比较 
热门 的 、 能 够 引起 我 的 兴趣 的 话题 来 写 ， 并 没有 考虑 到 主题 的 连贯 性 。 不 
过 ， 借 着 编辑 成 书 的 机 会 回 过 头 来 看 看 以 前 连载 的 文章 ， 和 编辑 讨论 之 后 ， 
头脑 中 便 一 下 子 浮 现 出 “未 来 ”这 个 关键 词 。 连 载 中 的 每 一 篇 文章 原本 都 
是 独立 的 ， 但 它们 中 的 大 多 数 都 体现 了 “从 过 去 到 未 来 "~ “应 对 即将 到 来 
的 未 来 ”这 样 的 主题 。 作 为 这 些 文章 的 作者 ,我 自己 也 感到 颇 为 意外 。 














地 庸 置 疑 ，IT 技术 正在 创造 着 我 们 的 现在 和 未 来 。 无 论 是 专业 人 士 ， 
还 是 业余 爱好 者 ， 像 我 们 这 样 的 开 技术 人 ， 可 以 说 是 会 最 早 与 未 来 遭遇 
的 “人 种 ” 吧 。 正 是 为 了 这 些 人 ， 我 才 将 《技术 的 剖析 》 这 个 专题 连载 至 
今 。 这 些 连载 能 浮现 出 “未 来 ”这 个 共同 的 关键 词 , 虽说 事先 没有 预料 到 ， 
但 从 某 种 意义 上 来 说 ， 也 许 是 水 到 渠 成 自然 而 然 的 结 
























































然而 , I 开 拉 术 人 的 真正 价值 应 该 并 非 只 有 “最 早 与 未 来 遭遇 ”而 已 ， 
我 们 不 仅 要 能 够 及 早 触及 未 来 ， 还 应 该 拥有 自己 创造 未 来 的 力量 一 一 创造 
出 比 这 本 书 所 预见 的 未 来 还 要 更 加 美好 的 未 来 。 


松本 行 弘 
2012 年 4 月 
于 栅 花 盛开 的 松江 市 
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攻 


3™™™™ 


和 本质 
CG 


在 一 部 古老 的 电影 《星际 迷航 4: 抢救 未 来 》 "中 有 这 样 一 个 镜头 : 从 23 世纪 的 未 来 穿越 
时 空 来 到 现代 (1986 年 ) 的 “进取 号 ”乘务 员 ,为 了 操作 计算 机 (Classic Mac ) 而 手持 鼠标 与 “ 计 
算 机 ”讲话 。 看 来 在 星际 迷航 的 世界 中 ， 用 人 类 语言 作为 操作 界面 就 可 以 指挥 计算 机 工作 了 。 


NN 


NR 


SS 


不 过 ， 现 代 的 计算 机 还 无 法 完全 理解 人 类 的 语言 。 市 面 上 也 有 一 些 可 以 用 日 语 来 操作 的 软 
件 , 但 距离 实用 的 程度 还 差 得 很 远 。 计 算 机 本 来 是 为 了 运行 由 0 和 1 组 成 的 机 天 语言 而 设计 的 ， 
但 与 此 同时 ， 对 于 人 类 来 说 ， 要 理解 这 种 二 进 制 位 所 构成 的 序列 到 底 代 表 什 么 意思 ， 却 是 非常 
困难 的 。 





因此 ， 创 造 出 一 种 人 类 和 计算 机 都 能 够 理解 的 语言 〈 编程 语言 )， 并 通过 这 样 的 语言 将 人 类 
的 意图 传达 给 计算 机 ， 这 样 的 行为 就 叫做 编程 。 




















话 虽 如 此 ,但 是 将 编程 仅仅 认为 是 “因为 计算 机 无 法 理解 人 类 语言 才 产 生 的 替代 品 ”"， 我 1 
得 也 是 不 合适 的 。 人 类 的 语言 其 实 非常 模糊 ， 有 时 根本 就 不 符合 逻辑 。 


汝 














Time flies like an arrow, 





这 句 话 的 意思 是 “光阴 似 第 ”( 时 间 像 入 一 样 飞 走 了 ),， 不 过 fties 也 有 “苍蝇 ”( 复数 形态 ) 
的 意思 ， 因 此 如 果 你 非 要 解释 成 “时 蝇 喜 第 ”也 未 尝 不 可 ， 只 要 你 别 去 纠结 “时 蝇 ” 到 底 是 只 
这 种 朴素 的 问题 就 好 了 。 





男 一 方面 ， 和 自然 语言 ( 人 类 的 语言 ) 不 同 ， 编 程 语言 在 设计 的 时 候 就 避免 了 模糊 性 ， 
此 不 会 产生 这 样 的 长 义 。 使 用 编程 语言 ， 就 可 以 将 步骤 更 加 严密 地 描述 出 来 。 

用 编程 语言 将 计算 机 需要 执行 的 操作 步骤 详细 描述 出 来 ， 就 成 了 软件 。 计 算 机 的 软件 ,无 
论 是 像 文字 处 理工 具 和 Web 浏览 器 这 样 的 大 型 软件 ， 还 是 像 操 作 系统 这 样 的 底层 软件 ， 全 部 都 
是 用 编程 语言 编写 出 来 的 。 





























Q@ 电影 原 题 为 Star Trek IV: The Voyage Home, 是 著名 的 《星际 迷航 》 系 列 科幻 电影 的 第 4 部 作品 ,上映 于 1986 年 。 
( 若 无 特殊 说 明 ， 本 书 的 脚注 均 为 译 者 注 ) 
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第 | 齐 编程 的 时 间 和 空间 


尺 编程 的 本 质 是 思考 


由 于 我 几乎 一 整 天 都 对 着 计算 机 ,因此 我 的 家 人 可 能 认为 我 的 工作 是 和 计算 机 打交道 。 然 而 ， 
将 编程 这 个 行为 理解 成 “向 计算 机 传达 要 处 理 的 内 容 ” 是 片面 的 。 这 样 的 理解 方式 ， 和 实际 的 
状态 并 不 完全 一 致 。 


的 确 ， 程序 员 都 是 对 着 计算 机 工作 的 ， 但 作为 其 工 
人 们 到 底 O 作成 果 的 软件 ( 中 的 大 部 分 ) 都 是 为 了 完成 人 类 所 要 完 
LSTAUNDNN 成 的 工作 而 设计 出 来 的 (图 1 )。 因 此 ,“ 人 们 到 底 想 要 
“Oe 什么 ? 想 要 这 些 东西 的 本 质 又 是 什么 ? 要 实现 这 个 目的 
-2 严格 来 说 需要 怎样 的 操作 步骤? ”思考 并 解决 这 些 问题 ， 


才 是 软件 开发 中 最 重要 的 工作 。 换 句 话 说， 编程 的 本 质 
在 于 “思考 ”。 


0 尽管 看 上 去 是 和 计算 机 打交道 的 工作 ， 但 实际 上 编程 
”和 人 入 交道 ”” ”的 对 象 还 是 人 类 ， 因 此 这 是 个 非常 “有 人 味 ” 的 工作 。 个 
人 认为 ， 编 程 是 需要 人 来 完成 的 工作 ， 因 此 我 不 相信 在 将 


































































































来 计算 机 可 以 自己 来 编程 。 





我 是 从 初 三 的 时 候 开始 接触 编程 的 。 当 时 父亲 买 了 一 台 和 夏普 的 袖珍 计算 机 《PC-1210 )， 可 
以 使 用 BASIC 来 编程 。 虽 然 这 人 台 袖 珍 计 算 机 只 能 输入 400 个 步骤 ,但 看 到 计算 机 可 以 按照 我 的 
命令 来 运行 ， 仿 佛 自己 什么 都 能 做 到 ， 一 种 “万 能 感 ” 便 油 然而 生 。 








饼 创造 世界 的 乐趣 


尽管 已 经 过 去 了 20 多 年 ,但 我 从 编程 活动 中 所 感到 的 “心潮 洁 洲 ” 却 是 有 增 无 减 。 
































这 种 心潮 澎 洲 的 感觉 ， 是 不 是 由 创造 新 世界 这 一 行为 所 产生 的 呢 ? 我 喜欢 编程 ， 多 少年 来 
从 未 厌倦 ， 这 其 中 最 大 的 理由 ， 就 是 因为 我 把 编程 看 作 是 一 项 创造 性 的 工作 吧 。 





只 要 有 了 计算 机 这 个 工具 ， 就 可 以 从 零 开 始 创造 出 一 个 世界 。 在 编程 的 世界 中 ， 基 本 上 没 
有 现实 世界 中 重力 和 因果 关系 这 样 的 制约 ， 如 此 自由 的 创造 活动 ， 可 以 说 是 绝无仅有 的 。 能 够 
按照 自己 的 意愿 来 创造 世界 ， 这 正 是 编程 的 最 大 魅力 所 在 ( 图 2 )。 














构筑 的 规则 来 去 拉 的 通过 创造 一 个 像 Ruby 这 样 的 编程 语言 ， 我 对 此 尤其 感触 颇 深 ， 不 过 ， 即 
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1.1 编程 的 本 质 











便 只 是 编写 一 个 很 小 的 程序 ， 其 本 质 也 
是 相同 的 。 可 以 按照 自己 的 意愿 来 创造 世界 


因此 ， 正 是 因为 具有 创造 性 这 样 重 
要 的 特质 ， 编 程 才 吸引 了 包括 我 在 内 的 
无 数 程序 员 ， 投 入 其 中 而 一 发 不 可 收拾 。 
将 来 ， 如 果真 能 够 像 在 《星际 迷航 》 的 
世界 那样 ， 只 要 通过 跟 计算 机 讲话 就 可 
以 获取 所 有 的 信息 ， 那 么 编程 也 许 就 变 
得 没有 那么 必要 了 。 
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其 实 ， 在 搜索 引擎 出 现 之 后 ， 类 似 人 
的 状况 已 经 正在 上 演 了 。 拿 我 的 孩子 们 
来 说 ， 他 们 也 经 常 频繁 地 坐 在 电脑 跟前 ， 但 却 从 来 没有 进行 过 编程 。 对 他 们 来 说 ， 电 脑 只 是 一 
个 获取 信息 的 渠道 ， 或 者 是 一 个 和 朋友 交流 的 媒介 而 已 。 编 程 这 种 事 ， 是 “和 爸爸 在 做 的 一 种 很 
复杂 的 事 "， 他 们 觉得 这 件 事 跟 自 己 没什么 关系 。 
































不 过 , 通过 编程 来 自由 操作 计算 机 , 并 创造 自己 的 世界 , 这 样 的 乐趣 如 果 不 让 他 们 了 解 的 话 ， 
我 觉得 也 挺 遗 憾 的 。 但 这 样 的 乐趣 并 不 是 通过 强加 的 方式 就 能 够 感受 到 的 ， 而 且 用 强制 的 方式 
可 能 反而 会 在 他 们 心里 埋 下 厌恶 的 种 子 ， 对 此 我 也 感到 进退 两 难 。 教 育 孩 子 还 真是 不 容易 呢 。 









































编程 所 具有 的 创造 性 同时 也 有 艺术 的 一 面 。 在 摄影 出 现 之 后 ， 绘 画 已 经 基本 上 丧失 了 用 于 
记录 的 功能 ， 但 即便 如 此 ， 颇 具 艺 术 性 的 绘画 作品 还 是 层出不穷 。 将 来 ， 即 便 编 程 的 必要 性 逐 
渐 消 失 ,可 能 我 还 是 会 为 了 艺术 性 和 乐趣 而 继续 编程 的 吧 。 其 实 , 像 《星际 迷航 》 中 的 世界 那样 ， 
“计算 机 ， 请 给 我 打开 一 个 Debian GNU/Linux 8.0 模拟 器 ， 我 要 写 个 程序 ”， 这 样 的 世界 也 挺 有 
意思 的 不 是 吗 ? 











仿 快 速 提高 的 性 能 改变 了 社会 





我 们 来 换 一 个 视角 。 在 计算 机 业界 ， 有 很 多 决定 方向 性 问题 的 重要 “定律 "， 其 中 最 重要 的 
莫 过 于 “摩尔 定律 ”了 。 摩 尔 定律 是 由 美国 英特尔 公司 创始 人 之 一 的 高 顿 * 摩尔 "于 40 多 年 前 
的 1965 年 ， 在 其 发 表 的 论文 中 提出 的 ， 这 个 定律 的 内 容 如 下 : 


























Oz 高 顿 'E .摩尔 (Gordon Earle Moore, 1929 一 ”),，1968 年 参与 创立 英特尔 公司 ， 此 后 曾 担任 过 英特尔 公司 总 裁 、 
首席 执行 官 、 董 事 长 等 职位 ， 现 已 退休 。 
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LSI 中 的 晶体 管 数 量 每 18 个 月 增加 一 们 ""。 


LSI 的 集成 度 每 18 个 月 就 翻 一 倍 ， 这 意味 着 3 年 就 可 以 达到 原来 的 4 倍 ，6 年 就 可 以 达到 
16 倍 ， 呈 指数 增长 。 因 此 ，30 年 后 ， 我 们 来 算 算 看 ， 就 可 以 达到 原来 的 100 万 倍 呢 。LSI 的 集 
成 度 基本 上 与 CPU 性 能 和 内 存 容量 直接 相关 ， 可 以 说 ,在 这 40 年 中 ， 计 算 机 的 性 能 就 是 以 指 
数 关 系 飞 速 增长 的 。 此 外 ， 集 成 度 也 可 以 影响 价格 ， 因 此 性 能 所 对 应 的 价格 则 是 反 过 来 呈 指 数 
下 降 的 。 


想 想 看 ,现在 你 家 附近 电子 商店 中 售 价 10 万 日 元 左右 ( 约 合 人 民 币 8000 元 ) 的 笔记 本 电脑 ， 
性 能 惑 怕 已 经 超过 20 多 年 前 的 超级 计算 机 了 (图 3)。 况且 ， 超 级 计算 机 光一 个 月 的 租金 就 要 
差不多 1 亿 日 元 ( 约 合 人 民 币 800 万 元 )， 就 连 租 都 已 经 这 么 贵 了， 如 果真 要 买 下 的 话 得 花 多 少 


20 年 前 的 超级 计算 机 最 近 的 笔记 本 电脑 






处 理 速 度 相同 





图 3 20 年 前 的 超级 计算 机 和 现在 的 笔记 本 电脑 性 能 处 于 同一 水 平 











我 在 大 学 毕业 之 后 就 职 的 第 一 家 公司 里 ， 用 过 一 台 索 尼 生 产 的 Unix 工作 站 ， 配 置 大 概 是 这 
样 的 : 


口 CPU: 摩托 罗拉 68020 25MHz 

口 操作 系统 : NEWS-OS 3.3a ( 基于 4.3BSD ) 

口 内 存 : 8MB 

口 硬盘 : 240MB 

口 价格 : 定价 155 万 日 元 ( 约 合 人 民 币 12 万 元 ) 




















QD LSI 指 “大 规模 集成 电路 ”。 摩 尔 定律 源 于 高 顿 摩尔 于 1965 年 4 月 19 日 发 表 在 《电子 学 》 杂 志 第 114 页 的 一 
篇 题 为 《让 集成 电路 填 满 更 多 的 组 件 》 的 文章 ， 原 文中 的 说 法 是 “每 年 增加 一 倍 ”"。1975 年 ， 摩 尔 将 这 一 定律 
修改 为 “每 两 年 增加 一 倍 ”"。 摩 尔 曾 公 开 表 示 ， 现 在 普遍 流行 的 “每 18 个 月 增加 一 倍 ” 的 说 法 ， 并 非 由 他 本 人 
提出 ， 而 是 出 自 于 英特尔 公司 的 一 位 名 叫 David House 的 同事 。 
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现在 我 几乎 不 敢 相 信 索 尼 曾 经 生产 过 UNIX 工作 站 ， 以 至 于 连 “ 工 作 站 ”( Workstation ) 这 
个 词 本 身 都 已 经 几乎 被 淘汰 了 。 工 作 站 曾经 指 的 是 那些 工程 上 使 用 的 、 性 能 比 一 般 个 人 电脑 要 
高 一 些 的 计算 机 (大 多 数 情况 下 安装 的 是 UNIX 系 操作 系统 )。 


这 台 工 作 站 也 曾经 是 我 最 初 开始 编写 Ruby 所 使 用 的 机 器 。 现 在 我 自己 家 里 的 计算 机 已 经 拥 
有 Core2 duo 2.4GHz 的 CPU 、4GB 内 存 和 320GB 硬盘 "7， 单 纯 比 较 一 下 的 话 ，CPU 频率 大 约 是 
那 台 工 作 站 的 100 倍 ， 内 存 容量 大 约 是 500 倍 ， 硬 盘 容 量 大 约 是 1300 倍 。 这 两 台 计 算 机 的 发 售 
时 间 大 约 差 了 18 年 ， 按 照 摩尔 定律 来 计算 ， 集 成 度 的 增加 率 应 该 为 64 倍 ， 可 见 内 存 和 硬盘 容 
量 的 增加 速度 已 经 远 远 超 过 摩尔 定律 所 规定 的 速率 了 。 


在 当时 的 网 络 上 ， 电 子 邮 件 和 网 络 新 闻 组 ?是 主流 ， 网 络 通信 还 是 在 电话 线路 上 通过 调制 
解 调 器 (Modem ) 来 进行 的 。 回 头 翻 翻 当时 的 杂志 ， 看 到 像 “9800bit/s 超 高 速 调制 解 调 器 售 价 
198 000 日 元 ( 约 合 人 民 币 1.6 万 元 ”这样 的 广告 还 是 感到 挺 震惊 的 。 最 近 我 们 已 经 很 少见 到 
模拟 方式 的 调制 解 调 需 了 ， 我 最 后 见 过 的 调制 解 调 需 速 度 为 36Kbitfs ， 售 价 大 约 数 千 日 元 。 


这 正 是 摩尔 定律 的 力量 。 在 这 个 业界 的 各 个 领域 中 都 经 历 着 飞跃 式 的 成 长 , 近 半 个 世纪 以 来 ， 
与 计算 机 相关 的 所 有 部 件 ， 都 随 着 时 间 变 得 性 能 更 高 、 容 量 更 大 、 价 格 更 便宜 。 


在 摩尔 定律 的 影响 下 ,我 们 的 社会 也 发 生 了 翻天 覆 地 的 变化 。 计 算 机 现在 已 经 变 得 随处 可 见 ， 
这 应 该 说 是 摩尔 定律 为 社会 所 带 来 的 最 大 变化 了 吧 。 

我 现在 用 的 手机 是 让 hone， 这 个 东西 与 其 说 是 个 手机 ， 不 如 说 是 一 个 拥有 通信 功能 的 迷你 
计算 机 。 作 为 玩具 它 实在 是 很 有 趣 , 但 因为 整 天 鼓 捣 它 还 是 被 家 里 人 给 了 差 评 。 这 样 一 个 东西 
花 儿 万 日 元 就 能 严 到 ， 不 得 不 感叹 文明 的 进步 。 差 不 多 在 同样 的 时 间 ， 我 给 我 的 一 个 女儿 买 了 
一 部 普通 的 手机 ， 这 部 手机 跟 iPhone 不 一 样 ， 只 是 那 种 一 般 的 多 功能 机 ”， 但 仔细 一 看 ， 这 种 
手机 也 能 上 网 ， 还 装 有 Web 浏览 器 、 电 子 邮 件 、 日 程 表 等 软件 ， 也 算得 上 一 台 不 错 的 计算 机 了 。 


当初 ， 让 我 感到 最 惊奇 的 是 这 个 手机 上 居然 安装 了 Java 虚拟 机 ， 这 样 一 来 说 不 定 能 运行 
JRuby 呢 。 不 光 是 日 本 ， 全 世界 的 人 现在 都 能 拥有 这 样 的 便携 式 计算 机 ， 并 通过 无 线 网 络 联系 
在 一 起 ， 这 样 的 情景 在 20 年 前 简直 是 很 难 想象 的 。 因 此 可 以 说 ， 计 算 机 的 大 规模 普及 ， 甚 至 改 


变 了 整个 社会 的 形态 。 









































































































































@ 这 是 2009 年 当时 的 配置 ，2012 年 现在 的 配置 为 Core i7 2.7GHz ( 双核 + 超 线程 )，8GB 内 存 、300GB 固态 硬盘 
(SSD )。 经 过 3 年 的 时 间 ， 好 像 并 没有 太 大 的 进步 呢 。( 原 书 注 ) 

@) 网 络 新 闻 组 这 个 词 现 在 也 已 经 淘汰 了 ， 简 单 来 说 ， 它 是 一 种 类 似 分 布 式 网 络 讨 论 组 的 东西 。( 原 书 注 ) 

@ 原文 是 “ 力 了 3 入 一 "， 即 “为了 六 2 又 . 族 一 弥 ” 的 简称 ， 这 是 一 个 日 本 独 有 的 说 法 。“ 力 了 7% 二 又 ” 指 的 是 
加 拉 帕 戈 斯 群 龟 ， 位 于 太平 洋 东 部 ， 由 于 与 世 隔绝 ， 岛 上 的 生态 系统 十 分 独特 ， 枉 息 着 巨 蜥 、 巨 怨 等 其 他 地 方 

没有 的 奇特 动物 。 这 个 词 暗示 在 智能 手机 快速 普及 的 今天 ， 日 本 市 场 中 还 存在 着 的 很 多 仿佛 与 世 隔绝 般 和 主流 

技术 格格 不 人 的 功能 和 服务 ， 以 及 带 有 这 些 功 能 和 服务 的 手机 ， 这 也 算是 日 本 手机 市 场 的 一 大 特色 。 
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以 不 变 应 万 变 





由 摩尔 定律 所 引发 的 计算 机 方面 的 变化 可 以 用 翻天 覆 地 来 形容 ,但 也 并 不 是 所 有 的 一 切 都 
在 发 生变 化 (图 4)。 





1980 年 2012 年 




















图 4 计算 机 在 不 断 进 化 ， 而 算法 则 保持 不 变 

















比如 说 ， 算 法 训 被 称 为 上 算法 的 轧 转 相 除法 ”， 是 在 公元 前 300 年 左 
右 被 提出 的 。 此 外 ， ns 


我 们 来 想 想 看 电子 邮件 的 情形 。15 年 前 ， 几 乎 没什么 人 会 使 用 电子 邮件 ,但 现在 ， 电 子 邮 
件 成 了 大 家 身边 如 影 随 形 的 工具 ， 其 至 有 不 少 人 一 天 到 晚 都 在 拿手 机 收发 邮件 。 邮 件 影响 了 很 
多 人 的 生活 ， 甚 至 改变 了 我 们 的 生活 方式 。 


然而 , ( 国 证 于 天 于 于 和 于 直列 上 第 一 封 电子 邮件 是 在 1971 年 发 送 的 ， 
而 现在 包 生 而 W 计 于， 关 不 多 是 中 仿 30 多 年 


前 的 东西 了 。 此 外 ,现在 依然 作为 主流 而 被 广泛 使 用 的 CD 加 于 到了 了 于 



































@ 轻 转 相 除 法 ， 又 称 欧 几 里 得 算法 ， 是 欧 几 里 得 ee ee BA 
目前 为 止 已 知 的 最 古老 的 算法 。 a 
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过 是 些 细 枝 未 节 的 改变 


0 








摩尔 定律 所 带 来 的 变化 ， 并 不 是 改变 了 人 类 自身 以 及 计算 的 本 质 ， 而 是 将 以 往 非常 昂贵 的 
计算 机 ， 以 及 只 有 特殊 部 门 才 需 要 的 东西 ， 普 及 到 “老百姓 ”的 手 上 。 从 这 个 侧面 来 讲 ， 它 所 
带 来 的 变化 的 确 是 十 分 巨大 的 。 











尺 摩尔 定律 的 局 限 














无 论 如 何 , 在 这 40 年 里 , 摩尔 定律 的 确 在 一 直 改 变 着 世界 , 但 是 这 个 定律 真 的 是 完美 的 吗 ? 











旦 指数 增长 的 趋势 在 如 此 长 的 时 期 内 能 够 一 直 成 立 ， 这 本 身 就 很 不 自然 。 实 际 上 ， 这 个 看 
似 无 敌 的 摩尔 定律 ， 最 近 也 仿佛 开始 显露 出 一 些 破 绽 。 我 们 可 以 预料 到 ， 在 不 远 的 将 来 ， 一 定 
会 出 现 一 些 因素 ， 对 摩尔 定律 的 继续 生效 构成 障碍 。 











首先 是 物理 定律 的 局 限 。LSI 也 是 现实 世界 中 物理 存在 的 东西 ， 自 然 受到 物理 定律 的 制约 。 
在 这 40 年 里 ，LSI 一 直 在 不 断 变 得 更 加 精密 ， 甚 至 快要 到 达 量 子 力学 所 管辖 的 地 盘 了 "。 当 LSI 
的 精密 化 达到 这 种 程度 ， 日 常生 活 中 一 些 从 来 不 必 在 意 的 小 事 ， 都 会 变 成 十 分 严重 的 问题 。 





第 一 个 重要 的 问题 是 光速 。 光 速 约 为 每 秒 30 万 千 米 ， 即 1 秒 钟 可 以 绕 地 球 7 圈 半 ， 这 个 数 
字 十 分 有 名 ， 连 小 孩子 都 知道 ， 不 过 正 是 因为 光速 实在 太 快 ,在 日 常生 活 中 我 们 往往 可 以 认为 
光速 是 无 穷 大 的 。 








然而 ，CPU 的 时 钟 频率 已 经 到 达 了 GHz 尺度 ， 比 如 说 ， 在 3GHz 的 频率 下 ， 波 形 由 开 到 关 
( 即 1 个 时 钟 周 期 ) 的 时 间 内 ， 光 只 能 前 进 10cm 的 距离 。 


而 且 ， 最 近 的 LSI 中 电路 的 宽度 已 经 缩小 到 只 有 数 十 纳米 (nm )， 而 lnm 等 于 100 万 分 之 
一 mm， 是 一 个 非常 小 的 尺度 ， 在 lnm 的 长 度 上 ， 只 能 排列 几 个 原子 ， 因 此 像 这 样 在 原子 尺度 
上 来 制造 电路 是 相当 困难 的 。 


LSI 中 的 电路 是 采用 一 种 印刷 技术 ” 印 上 去 的 ， 在 这 样 细微 的 尺度 中 ， 光 的 波长 甚至 都 成 
了 大 问题 ， 因 为 如 果 图 像 的 尺寸 比 光 的 波长 还 小 ， 就 无 法 清晰 地 转 印 。 可 见 光 的 波长 范围 约 为 
400 ~ 800nm， 因 此 最 近 45nm 制程 的 LSI 是 无 法 用 可 见 光 来 制造 的 。 












































@ 经 典 力学 和 经 典 电 动力 学 都 是 用 来 描述 宏观 系统 的 ， 当 集成 电路 精密 程度 达到 原子 级 别 的 微观 系统 时 ， 经 典 物 
理学 就 显得 力不从心 了 ， 这 就 必须 依靠 用 来 描述 微观 物质 的 量子 力学 。 
@ 这 里 指 的 是 “ 光 刻 法 ”( Photolithography )。 
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在 这 种 原子 太 度 的 电路 中 ， 保 持 绝缘 也 是 相当 困难 的 。 简 单 来 说 ， 就 是 电流 通过 了 原本 不 
该 通过 的 地 方 ， 这 被 称 为 漏电 流 。 漏 电流 不 但 会 浪费 电力 ， 某 些 情 况 下 还 会 降低 LSI 的 性 能 。 


漏电 流 还 会 引发 其 他 的 问题 ， 比 如 发 热 。 随 着 LSI 越 来 越 精密 ， 其 密度 也 越 来 越 高 ， 热 密 
度 也 随 之 提高 。 像 现在 的 CPU 这 样 高 密度 的 LSI, 其 热 密度 已 经 跟 电导 斗 或 者 烧烤 盘 差 不 多 高 了 ， 
因此 必须 用 风扇 等 装置 持续 进行 降温 。 照 这 个 趋势 发 展 下 去 ， 热 密度 早晚 要 媲美 火箭 的 喷气 口 ， 
如 果 没有 充分 的 散热 措施 ， 连 LSI 本 身 都 会 被 炊 化 。 








由 于 漏电 流 和 热 密度 等 问题 ， 最 近 几 年 ，CPU 的 性 能 提高 似乎 遇 到 了 瓶颈 。 大 家 可 能 也 都 
注意 到 了 ， 前 几 年 在 店 里 卖 的 电脑 还 都 配备 了 3GHz、4GHz 的 CPU ， 而 最 近 主 流 的 电脑 配置 却 
是 清一色 的 2GHz 上 下 。 造 成 这 个 现象 的 原因 之 一 就 是 上 面 提 到 的 那些 问题 ， 使 得 CPU 一 味 追 
求 频率 的 时 代 走 到 了 尽头 。 此 外 ， 现 在 的 CPU 性 能 对 于 运行 Web 浏览 器 、 收 发 邮件 等 日 常 应 
用 已 经 足够 了 ， 这 也 是 一 个 原因 。 














看 了 上 面 这 些 ， 大 家 可 能 会 感到 称霸 了 40 多 年 的 摩尔 定律 就 快要 不 行 了 ， 不 过 英特尔 公 
司 的 人 依然 主张 “摩尔 定律 至 少 还 能 维持 10 年 ”"。 实 际 上 ， 人 们 可 以 使 用 特殊 材料 来 制造 LSL， 
以 及 使 用 和 光 代 奉 可 见 光 来 进行 光 刻 的 转 印 等 ， 通 过 这 些 技术 的 手段 ， 摩 尔 定律 应 该 还 能 再 维 
持 一 阵子 。 


此 外 ， 由 于 通过 提高 单一 CPU 的 密度 来 实现 性 能 的 提升 已 经 非常 困难 ， 因 此 在 一 个 LSI 中 
集成 多 个 CPU 的 方法 逐渐 成 为 主流 。 像 英特尔 公司 的 Core2 计 、i 这 样 在 一 个 LSI 上 集成 2 ~ 
8 个 CPU 核心 的 “多 核 ”( Multi-core ) CPU， 目 前 已 经 用 在 了 普通 的 电脑 中 ， 这 也 反映 了 上 面 
提 到 的 这 一 趋势 。 


比 起 拥有 复杂 电路 设计 的 CPU 来 将， 内 存 等 部 件 由 于 结构 简单 而 平均 ， 因 此 其 工艺 的 精密 
化 更 加 容易 。 今 后 一 段 时 间 内 ，CPU 本 身 的 性 能 提升 已 经 十 分 有 限 ， 而 多 CPU 化 、 内 存 容量 的 
增 大 、 由 硬盘 向 半导体 SSD 转变 等 则 会 成 为 主流 。 


















































信 社会 变化 与 编程 


前 面 我 们 讨论 了 摩尔 定律 和 它 所 带 来 的 变化 ,以 及 对 今后 趋势 的 简单 预测 。 多亏 了 摩尔 定律 ， 
我 们 现在 才 可 以 买 到 大 量 高 性 能 低 价格 的 计算 机 产品 。 那 么 这 种 变化 又 会 对 编程 产生 怎样 的 影 
啊 呢 ? 





我 最 早 接触 编程 是 在 20 世 纪 80 年 代 初 ,在 那个 时 候 , 使 用 电脑 的 目的 就 是 编写 BASIC 程序 。 
无 论 是 性 能 还 是 容量 ， 那 个 时 候 的 计算 机 都 非常 差劲 ， 根 本 无 法 与 现在 的 计算 机 相提并论 ， 此 
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1.1 编程 的 本 质 








外 ， 还 必须 使 用 BASIC 这 种 十 分 差劲 的 编程 语言 ， 这 种 环境 对 于 编程 的 制约 是 相当 大 的 。 当 
时 , 我 编写 了 许多 现在 看 起 来 很 不 起 眼 的 游戏 , 还 对 差劲 的 BASIC 和 计算 机 性 能 感到 十 分 不 裴 ， 
一 边 立 志 总 有 一 天 “一 定 要 用 上 正经 的 计算 机 ”, 一 边 搜集 着 书本 杂志 中 的 信息 做 着 自己 的 “ 春 
秋 大 梦 ”。 











而 男 一 方面 ， 现 在 计算 机 已 经 随处 可 见 ， 拿 着 手机 这 样 的 个 人 计算 设备 的 人 也 不 在 少数 。 
我 的 孩子 们 所 就 读 的 学 校 里 ， 设 有 与 理科 教室 、 音 乐 教室 等 并 列 的 电脑 教室 ， 有 时 也 会 用 计算 
机 来 进行 授课 。 这 样 一 个 时 代 中 的 年 轻 人 ， 他 们 对 于 编程 这 件 事 又 怎么 看 呢 ? 











由 于 职业 的 关系 ， 我 家 里 有 很 多 台 计 算 机 ， 算 上 不 怎么 经 常用 的 ， 可 以 说 计算 机 的 数量 比 
家 里 人 的 数量 还 要 多 "， 当 然 ， 要 是 再 算 上 手机 之 类 的 话 ， 那 就 更 多 了 。 即 便 是 生活 在 这 样 充满 
计算 机 的 家 庭 中 ， 和 孩子 们 对 于 编程 貌似 也 没有 什么 兴 








那么 ， 他 们 用 计算 机 都 做 些 什么 事 呢 ? 比如 用 邮件 和 博客 与 朋友 交流 ， 用 维基 百科 查阅 学 
习 上 所 需要 的 信息 ， 还 有 在 YouTube 上 看 看 动画 片 之 类 的 。 





上 初中 时 学 校 曾 经 组 织 过 用 一 种 叫做 “Dolittle” 的 编程 语言 ?来 做 实习 ， 孩 子 们 也 好 像 也 
挺 感 兴趣 ， 不 过 并 没有 再 进一步 发 展 为 真正 的 编程 。 对 于 他 们 来 说 ， 上 上 网 站 、 看 看 YouTube、 
发 发 邮件 ， 有 时 候 玩 玩 网 购 和 在 线 竞 拍 ， 这 些 已 经 足够 了 。 


我 一 个 学 生 时 代 的 朋友 ， 现 在 正在 大 学 任教 ， 他 对 我 说 ， 现 在 信息 技术 类 专业 不 但 不 如 以 
前 热门 ， 而 且 招 进来 的 学 生 中 有 编程 经 验 的 比例 也 下 降 了 。 这 似乎 意味 着 ,计算 机 的 普及 率 提 
高 了 ， 但 是 编程 的 普及 率 却 一 点 都 没有 提高 ， 真 是 令 人 哄 叹 不 已 。 





























我 猜想 ， 大 概 是 由 于 随 着 软件 的 发 展 ， 不 用 编程 也 可 以 用 好 计算 机 ， 因 此 学 习 编 程 的 动力 
也 就 没有 那么 强 了 。 此 外 ， 现 在 大 家 都 认为 软件 开发 是 一 份 非常 注 蔡 的 工作 ， 这 可 能 也 是 导致 
信息 技术 类 专业 人 气 下 滑 的 一 个 原因 。 



































话 虽 如 此 ,但 并 不 是 说 真 的 一 点 希望 都 没有 了 。 这 几 年 来 ,我 在 一 个 叫做 “U20 Pro Con” 
的 以 20 岁 以 下 青少年 为 对 象 的 编程 大 赛 中 担任 评委 ， 每 年 的 参赛 作品 中 ， 总 能 见 到 一 些 水 平 非 
常 高 的 程序 。 








也 许 是 因为 我 担任 评委 的 缘故 ， 每 年 当 我 看 到 有 自制 编程 语言 方面 的 参赛 作品 时 ， 总 会 感 
到 十 分 震惊 和 欣慰 。 在 我 自己 还 是 高 中 生 的 时 候 ， 虽 然 也 想 过 创造 一 种 编程 语言 ， 但 完全 不 知 
道 该 怎样 去 做 ， 到 头 来 毫 无 进展 。 从 这 个 角度 来 看 ， 这 些 参赛 的 年 轻 人 能 够 完整 设计 并 实现 一 


























@ 松本 行 弘 有 4 个 孩子 ， 因 此 家 里 一 共有 6 口 人 。 
@ Dolittle 是 由 大 孤 电 气 通信 大 学 的 兼 宗 进 等 人 开发 的 一 种 教育 用 编程 语言 ， 主 页 : http://dolittle.eplang.jp/。 
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种 编程 语言 ， 比 当年 的 我 可 优秀 多 了 ， 因 此 我 对 他 们 将 来 的 发 展 充满 期 待 。 


在 这 个 世界 上 也 有 一 些 人 ， 即 便 不 去 培养 ， 他 们 也 拥有 想 要 编程 的 欲望 ， 这 样 的 人 虽然 上 只 
是 小 众 ， 但 他 们 会 通过 互联 网 获取 丰富 的 知识 ， 并 不 断 攀 登 编程 领域 的 高 峰 。 编 程 的 领地 不 会 
像 计算 机 的 普及 那样 飞速 地 扩展 ， 但 水 平 最 高 的 人 ,水平 却 往往 变 得 越 来 越 高 。 这 样 的 状况 是 
我 们 希望 看 到 的 呢 ， 还 是 不 希望 看 到 的 呢 ? 我 也 没 办 法 做 出 判断 。 


























现代 社会 已 经 离 不 开 计 算 机 和 驱动 计算 机 的 软件 了 ， 从 这 个 角度 来 说 ， 我 希望 有 更 多 的 人 
能 够 积极 地 参与 到 编程 工作 中 来 。 此 外 ， 我 也 希望 大 家 不 仅仅 是 将 软件 开发 作为 一 份 工作 来 做 ， 
而 是 希望 更 多 的 人 能 够 感受 到 软件 开发 所 带 来 的 那 种 “创造 的 乐趣 ”和 “心潮 滚 涯 的 感觉 ”。 
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没有 哪个 人 能 够 真 的 看 到 未 来 ， 也 许 正 是 因为 如 此 ， 人 们 才 想 要 预知 未 来 ， 并 对 预言 、 占 
上 下 等 方式 充满 兴趣 。 以 血型 、 出 生日 期 、 天 干 地 六、 风水 等 为 依据 的 占卜 非常 热门 ， 事实 上 ， 
杂志 和 早 间 电视 节目 中 每 次 都 有 占卜 的 内 容 。 
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这 些 毫 无 科学 依据 的 占卜 方式 是 不 靠 谱 的 ， 虽 说 如 此 ， 占 卜 却 还 是 大 肆 流 行 起 来 ， 其 中 有 
这 样 一 些 理由 。 





首先 ， 最 大 的 理由 莫 过 于 “ 巴 纳 姆 效应 ” "了 .“ 巴 纳 姆 效应 ”是 一 种 心理 学 现象 ， 指 的 是 
将 一 些 原 本 是 放 之 四 海 而 狐 准 的 、 模 楼 两 可 的 一 般 性 描述 往 自己 身上 套 ， 并 认为 这 些 描述 对 自 
己 是 准确 的 。 比 如 ， 找 一 些 受 试 者 做 一 份 心理 测试 问卷 ， 无 论 受 试 者 如 何 回答 问卷 上 的 问题 ， 
都 向 他 们 提供 事先 准备 好 的 内 容 差不多 的 测试 结果 ， 大 多 数 的 受 试 者 都 会 认为 这 个 结果 对 自己 
的 描述 非常 准确 。 你 觉得 “占卜 好 准 啊 ”， 其 实 多 半 都 是 巴 纳 姆 效应 所 导致 的 。 即 使 是 随便 说 说 
的 一 些 话 ， 也 会 有 人 深信 不 疑 ， 这 说 不 定 是 人 类 的 一 种 本 能 吧 。 人 类 的 心理 到 底 为 什么 会 拥有 
这 样 的 性 质 呢 ? 























其 次 ， 有 很 多 算命 先生 和 自称 预言 家 的 人 ， 实 际 上 都 是 利用 了 被 称 为 “ 冷 读 术 ”( Cold 
reading ) 和 “ 热 读 术 ”( Hot reading ) 的 技巧 ， 来 让 人 们 相信 和 他们 真有 不 同 寻常 的 “能 力 ”。 





冷 读 术 ， 就 是 通过 观察 对 方言 行 举止 中 的 一 些 细微 之 处 来 进行 揣测 的 技巧 ， 就 像 夏 洛克 ， 
福尔摩斯 对 他 的 委托 人 所 运用 的 那 种 技巧 差不多 。 例 如 通过 说 话 的 口音 来 判断 出 生地 ， 通 过 衣 
服 上 烙 着 的 泥土 来 判断 对 方 之 前 去 过 什么 地 方 等 等 。 冷 读 术 中 的 “ 冷 ” 代 表 “ 没 有 事先 准备 ” 


普 田 
的 已 .mo 






































相对 地 , 热 读 术 则 是 通过 事先 对 对 方 进 行 详细 的 调查 , 来 准确 说 出 对 方 的 情况 ( 着 场 作 戏 )。 
通过 事先 调查 ， 掌 握 对 方 的 家 庭 构成 、 目 前 所 遇 到 的 问题 等 等 ， 当 然 能 够 一 语 中 的 ， 再 加 上 表 
演 得 像 是 拥有 超 能 力 一 样 ， 总 会 有 人 深信 不 疑 的 。 


























Oz 实际 上 ， 巴 纳 姆 效应 (Barnum effect ) 的 发 现 者 是 心理 学 家 伯 特 伦 ' 福 勒 (Bertram Forer，1914 一 2000 )， 因 此 也 
被 称 为 福 勒 效应 。 而 巴 纳 姆 (PT Barnum ) 是 一 位 著名 的 美国 马戏 业者 ， 之 所 以 用 他 的 名 字 命 名 ， 是 因为 他 曾经 
说 过 ,“ 我 的 表演 之 所 以 受 欢 迎 ， 是 因为 其 中 包含 了 每 个 人 都 喜欢 的 成 分 ”"， 因 此 “每 一 分 钟 都 会 有 人 上 当 受 骗 ”。 
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结论 ， 占 政之 类 的 方法 都 不 靠 谱 ， 它 们 都 是 不 科学 的 。 那 么 ， 有 没有 科学 一 点 的 方法 能 够 
预测 未 来 呢 ? 比如 说 ， 像 艾 萨 克 ' 阿 西 葛 夫 的 基地 系列 中 所 描写 的 心理 史学 那样 。” 





饼 科学 的 未 来 预测 





心理 史学 是 阿 西 莫 夫 所 创造 的 虚构 学 科 。 用 气体 分 子 运 动 论 来 类 比 ， 我 们 虽然 无 法 确定 每 
个 气体 分 子 的 运动 方式 ， 但 对 于 由 无 数 气 体 分 子 所 组 成 的 气体 ， 我 们 却 可 以 计算 出 其 整体 的 运 
动 方式 。 同 样 地 ， 对 于 由 无 数 的 人 所 组 成 的 集团 ， 其 行为 也 可 以 通过 数学 的 方法 来 进行 预测 。 
这 样 一 类 比 的 话 ， 是 不 是 感到 很 有 说 服 力 呢 ? 





























基地 系列 正 是 以 基于 心理 史学 的 未 来 预测 为 轴 ， 描 写 了 以 整个 银河 系 为 舞台 ， 数 兆 人 类 的 
数 千年 历史 。 


然而 ， 在 现实 中 ， 特 定 个 人 的 行动 往往 能 够 大 幅 左 右 历史 的 走向 ， 即 便 是 从 整体 来 看 ， 用 
数学 公式 来 描述 人 类 的 行为 还 是 太 过 复杂 了 ， 心 理 史学 也 许 只 能 停留 在 幻想 中 而 已 。 虽然 心理 
史学 只 是 一 门 完全 虚构 的 学 科 , 但 这 并 不 意味 着 不 可 能 通过 科学 的 方法 来 预测 未 来 。 虽 然 我 们 
无 法 对 未 来 作出 完全 准确 的 预测 ， 但 在 限定 条 件 下 ， 还 是 可 以 在 一 定 概率 上 对 未 来 作出 预测 的 ， 
尤其 是 当 我 们 要 预测 的 不 是 未 来 人 类 的 行动 ， 而 是 纯粹 预测 技术 发 展 的 情况 下 。 因 此 ，IT 领域 
可 以 说 是 比较 容易 通过 上 述 方式 进行 未 来 预测 的 一 个 领域 了 吧 。 


























IT 未 来 预测 








之 所 以 说 IT 领域 的 未 来 比较 容易 预测 ， 最 大 的 一 个 理由 是 : 从 计算 机 的 出 现 到 现在 已 经 过 
了 约 半 个 世纪 ,但 在 这 40 多 年 的 时 间 里 ,计算 机 的 基本 架构 并 没有 发 生变 化 。 现 在 主流 的 CPU 
架构 是 英特尔 的 x86 架构 ， 它 的 基础 却 可 以 追溯 到 1974 年 问世 的 8080， 而 其 他 计算 机 的 架构 ， 
其 根本 部 分 都 是 大 同 小 异 。 这 意味 着 计算 机 进步 的 方向 不 会 有 什么 很 大 的 变化 ,我 们 有 理由 预测 ， 
未 来 应 该 位 于 从 过 去 到 现在 这 个 方向 的 延长 线 上 ( 图 1 )。 

















如 果 像 量 子 计算 机 这 样 和 现在 的 计算 机 架构 完全 不 同 的 东西 成 为 主流 的 话 ， 我 们 的 预测 也 
就 不 成 立 了 ， 不 过 还 好 ， 在 短 时 间 内 ( 比如 5 年 之 类 的 ) 这 样 的 技术 应 该 还 无 法 实现 。 此 外 ， 











@ 艾 萨 克 … 阿 西 莫 夫 ( Isaac Asimov，1920 一 1992 ) 是 著名 的 美国 科幻 小 说 家 ， 他 的 作品 中 提出 了 很 多 对 现代 科幻 
小 说 甚至 是 现代 科学 技术 影响 深远 的 概念 ， 如 著名 的 “机 器 人 三 定律 "。 基 地 系列 (The Foundation Series ) 是 阿 
西 莫 夫 撰 写 的 系列 科幻 小 说 作品 , 整 部 基地 系列 作品 包括 《基地 三 部 曲 》《 基 地 后 传 》 和 《基地 前 传 》 三 大 部 分 。 
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1.2 ”未 来 预测 


在 这 个 行业 中 , 5 年 、10 年 以 后 的 未 来 已 经 算是 相当 遥远 了 ， 即 便 预 测 了 也 没有 什么 意义 。 总 
之 目前 来 看 ， 这 样 的 趋势 还 是 问题 不 大 的 。 


ao 


图 1 ”从 过 去 到 未 来 的 发 展 方向 




















支配 计算 机 世界 “从 过 去 到 未 来 变化 方向 ”的 一 个 代表 性 理论 ,就 是 在 1-1 中 已 经 讲解 过 的 “ 摩 


尔 定律 ”。 





LSI 中 的 晶体 管 数 18 个 月 增加 一 倍 。 








在 摩尔 定律 的 影响 下 , 电路 变 得 更 加 精密 , LSI 的 成 本 不 断 降低 , 性 能 不 断 提 高 。 其 结果 是 ， 
在 过 去 的 近 40 年 中 : 





口 价格 下 降 
口 性 能 提高 
口 容量 增 大 
口 带宽 增加 











这 些 都 是 呈 指 数 关系 发 展 的 。 呈 指数 关系 ， 就 
像 “ 一 传 十 、 十 传 百 ”一 样 ， 其 增 大 的 速度 是 十 分 
惊人 的 (图 2)。 


而 这 一 旦 指数 关系 发 展 的 趋势 ， 预 计 在 今后 也 
会 保持 差不多 的 速度 ， 这 就 是 IT 未 来 预测 的 基础 。 ”性 和 


CC 





另外 一 个 需要 考虑 的 问题 ， 就 是 不 同 领域 各 自 
的 发 展 速度 。IT 相关 的 各 种 数值 的 确 都 在 以 指数 关 
系 增加 , 但 大 家 的 步调 也 并 不 是 完全 一 致 的 。 例 如 ， 
相 比 CPU 处 理 速 度 的 提高 来 说 ， 存 储 器 容量 的 增 


























加 速度 更 快 ， 而 与 上 面 两 者 相 比 ， 数 据 传输 速度 的 人 1930 年 “2000 2 放生 
增加 又 显得 跟 不 上 了 。 这 种 发 展 的 不 平衡 也 会 左右 央 2 ”性 能 呈 指 数 关系 增加 


我 们 的 未 来 。 
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“| = 编程 的 时 间 和 空间 


仿 极限 未 来 预测 






































下 面 我 们 来 介绍 一 种 预测 未 来 的 时 候 所 用 到 的 ， 名 叫 “ 极 限 思考 法 ”的 简单 技巧 。 























曾 提 出 过 “极限 编程 ”(eXtreme Programming， 简 称 XP) 手法 的 肯特 贝克， 在 其 著作 《 解 
析 极 限 编 程 》 中 这 样 写 道 ，? 











当 我 第 一 次 构建 出 XP 时 ,我 想到 了 控制 板 上 的 旋钮 。 每 个 旋钮 都 是 一 种 ( 经 验 
告诉 我 的 ) 有 效 的 实践 ， 我 将 所 有 的 旋钮 都 调 到 10， 然 后 等 着 看 会 出 现 什么 情况 。? 


我 们 也 可 以 用 同样 的 方法 来 对 未 来 作出 预测 。 比 如 说 ,“ 如 果 计 算 机 的 价格 越 来 越 便宜 ， 那 
当 它 便 宜 到 极致 的 时 候 会 怎么 样 呢 ? “如果 我 们 能 够 天 到 超 高 性 能 的 计算 机 会 怎么 样 呢 ? ”“ 如 
有 果 计 算 机 的 存储 容量 增 大 到 超 乎 想象 的 程度 会 怎么 样 呢 ? ““ 如 果 网 络 带 宽 变 得 非常 大 的 话 会 怎 
么 样 呢 ? ” 

















大 家 怎么 认为 呢 ? 


很 从 价格 看 未 来 


首先 ， 我 们 来 看 看 价格 。 如 果 今 后 计算 机 的 价格 不 断 下 降 ， 这 将 意味 着 什么 呢 ? 我 想 这 意 
味 着 两 件 事 。 第 一 ， 普 通 人 所 能 拥有 的 计算 机 的 性 能 将 比 现在 大 大 提高 ; 第 二 ， 现 在 还 没有 使 
用 计算 机 的 地 方 ， 以 后 都 会 安装 上 计算 机 。 





























这 里 有 一 个 很 有 意思 的 现象 ， 根 据 摩 尔 定律 ， 关 于 计算 机 的 很 多 指标 都 在 发 生 剧 烈 的 变化 ， 
但 PC 的 价格 似乎 变化 并 没有 那么 大 。1979 年 发 售 的 NEC PC-8001 的 定价 为 16 万 8000 日 元 ( 约 
合 人 民 币 1.3 万 元 ), 而 现在 主力 PC 的 价格 也 差不多 是 在 10 万 日 元 ( 约 合 人 民 币 8000 元 ) 上 下 ， 
即便 考虑 物价 变化 的 因素 ， 也 还 是 出 人 意料 地 稳定 。 这 可 能 意味 着 人 类 对 于 PC 的 购买 力也 就 
差不多 只 有 这 个 程度 ， 在 不 断 提 高 的 性 能 和 价格 之 间 在 寻求 一 种 平衡 ， 因 此 我 估计 普及 型 计算 
机 的 价格 今后 也 不 太 可 能 会 大 幅 下 降 。 关 于 将 来 PC (PC 型 计算 机 ) 的 样子 ， 我们 会 在 “性 能 ” 
一 节 中 进行 讨论 。 


























Q@ 肯特 "贝克 (Kent Beck，1961 一 ”)， 是 一 位 美国 著名 的 软件 工程 师 ， 极 限 编程 思想 的 创始 人 之 一 。 《解析 极限 
编程 一 一 拥抱 变化 》( Extreme Programming Explained: Embrace Change )， 第 一 版 出 版 于 1999 年 ， 并 于 2005 年 
出 版 了 第 二 版 。 

@ 这 段 译 文 引 自 中 译本 《解析 极限 编程 一 一 拥抱 变化 》 唐 东 铭 译 ， 人 民 邮 电 出 版 社 (2002 年 )。 























— 
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1.2 未 来 预测 








关于 在 目前 尚未 开发 的 领域 中 安装 计算 机 这 件 事 ， 其 实现 在 已 经 在 上 演 了 。 例如， 以 前 纯 
粹 由 电子 电路 所 构成 的 电视 机 ， 现 在 也 安装 了 CPU、 内 存 、 硬 盘 等 部 件 ， 从 硬件 上 看 和 PC 没 
什么 两 样 ， 并 且 还 安装 了 Linux 这 样 的 操作 系统 。 此 外 ， 以 前 用 单片机 来 实现 的 部 分 ， 现 在 也 
开始 用 上 了 带 有 操作 系统 的 “计算 机 ”， 在 这 样 的 舱 入 式 系统 中 ， 软 件 所 占 的 比例 越 来 越 大 。 今 
后 ， 可 以 说 外 观 长 得 不 像 计 算 机 的 计算 机 会 越 来 越 多 ， 为 这样 的 计算 机 进行 软件 开发 的 重要 性 
也 就 越 来 越 高 。 例 如 ， 现 在 由 于 内 存 容量 和 CPU 性 能 的 限制 而 无 法 实现 的 开发 工具 和 语言 ， 以 
后 在 “和 铬 入 式 软 件 ” 开 发 中 也 将 逐渐 成 为 可 能 。 
































从 性 能 看 未 来 


从 近 10 年 计算 机 性 能 变化 的 趋势 来 看 ，CPU 自身 的 性 能 提高 似乎 已 经 快要 到 达 极 限 了 。 近 
几 年 ， 很 多 人 会 感觉 到 PC 的 时 钟 频率 似乎 到 了 2GHz 就 再 也 上 不 去 了 。 这 种 性 能 提高 的 停滞 现 
象 ， 是 由 耗 电 、 漏 电流 、 热 密度 等 诸多 原因 所 导致 的 ， 因 此 从 单一 CPU 的 角度 来 看 ， 恕 怕 无 法 
再 继续 过 去 那样 呈 指 数 增长 的 势头 了 。 

那么 这 样 下 去 结果 会 怎样 呢 ? 要 推测 未 来 计算 机 的 性 能 ， 最 好 的 办 法 是 看 看 现在 的 超级 计 
算 机 。 因 为 在 超级 计算 机 中 为 了 实现 高 性 能 而 采用 的 那些 技术 ， 其 中 一 部 分 会 根据 摩尔 定律 变 
得 越 来 越 便宜 ， 在 5 到 10 年 后 的 将 来 ， 这 些 技术 就 会 被 用 在 主流 PC 中 。 





















































那么 ， 作 为 现在 超级 计算 机 的 代表 ， 我 表 1 ”超级 计算 机 “ 京 ”的 指标 
们 来 看 看 2012 年 目前 世界 最 快 的 超级 计算 机 性 能 10000TFLOPS 
价格 1120 亿 日 元 ( 约 合 人 民 币 90 亿 元 ) 








“ 京 ”? 的 性 能 数据 ( 表 1 )。 虽 然 它 的 性 能 看 起 。 -CO 个 
来 都 是 些 天 文 数 字 ， 但 再 过 20 年 ， 这 种 程度 核心 数量 “| 705024 个 
的 性 能 很 可 能 就 只 能 算是 “一 般 般 ”了 。 BR TU 

















说 不 定 在 不 和 久 的 将 来 ，1024 核 的 笔记 本 电脑 就 已 经 是 一 般配 置 了 。 如 果 是 服务 絮 环 境 的 话 ， 
也 许 像 现在 的 超级 计算 机 这 样 数 万 CPU、 数 十 万 核心 的 配置 也 已 经 非常 普遍 了 。 难 以 置信 吧 ? 





在 这 样 的 环境 下 ， 编 程 又 会 变 成 什么 样子 呢 ?” 为 了 充分 利用 这 么 多 的 CPU， 软 件 及 其 开发 
环境 又 会 如 何 进 化 呢 ? 























Oz@ 京 (Kcomputer ) 是 设 在 日 本 理化 学 研究 所 的 一 台 超 级 计算 机 , 从 2005 年 开始 研发 , 2012 年 6 月 正式 宣告 完成 。 
其 名 称 “ 京 ”表示 它 的 运算 速度 可 以 达到 每 秒 1 京 次 (10000 万 亿 次 ， 即 1% 次 ) 的 级 别 。 根 据 世 界 超级 计算 


机 TOP500 排行 榜 的 数据 ， 在 本 书 出 版 的 当时 (2012 年 4 月 ),“ 京 ”依然 保持 着 世界 最 快 超级 计算 机 的 纪录 ， 
但 在 2012 年 6 月， 这 一 纪录 被 美国 IBM 的 超级 计算 机 “ 红 杉 ”( Sequoia ) 打破 。 

















图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


“| = 编程 的 时 间 和 空间 











考虑 到 这 样 的 环境 ， 我 认为 “未 来 的 编程 语言 ”之 间 ， 应 该 在 如 何 充分 利用 CPU 资源 这 个 
方面 进行 争夺 。 即 便 是 现在 ， 也 已 经 有 很 多 语言 提供 了 并 行 处 理 的 功能 ， 而 今后 并 行 处 理 则 会 
变 得 愈 发 重要 。 如 果 能 将 多 个 核心 的 性 能 充分 利用 起 来 ， 说 不 定 每 个 单独 核心 的 性 能 就 变 得 没 
有 那么 重要 的 。 








仿 从 容量 看 未 来 








存储 器 的 容量 ， 即 内 存 容量 和 外 存 ( 硬盘 等 ) 容量 ， 是 增长 速度 最 快 的 指标 。2012 年 春 ， 
一 般 的 笔记 本 电脑 也 配备 了 4GB 的 内 存 和 500GB 左右 的 硬盘 ， 再 加 上 外 置 硬盘 的 话 ， 购 买 
2 ~ 3TB 的 存储 容量 也 不 会 花 上 太 多 的 钱 。 一 个 普通 人 所 拥有 的 存储 容量 能 达到 TB 级 ， 这 在 
10 年 前 还 是 很 难 想象 的 事情 ， 而 仅仅 过 了 没 多 少时 间 ， 我 们 就 可 以 在 电子 商店 里 轻松 买 到 TB 
级 容量 的 硬盘 了 。 


























那么 ,存储器 容量 的 增加 ， 会 对 将 来 囊 来 哪些 变化 呢 ? 大 家 都 会 想到 的 一 点 是 ， 到 底 从 哪 
里 才能 搞 到 那么 多 的 数据 ， 来 填 满 如 此 巨大 的 容量 呢 ? 





实际 上 ， 这 一 点 根本 用 不 着 担心 。 我 们 来 回想 一 下 ， 无 论 存储 容量 变 得 多 大 ， 不 知 怎么 回 
事 好 像 没 过 多 入 就 又 满 了 。 为 了 配合 不 断 增 加 的 存储 容量 ,图 片 数据 和 视频 数据 都 变 得 更 加 精细 ， 
斥 才 也 就 变 得 更 大 。 另 外 ， 软 件 也 变 得 越 来 越 腑 肿 ， 占 用 的 内 存 也 越 来 越 多 。 以 前 的 软件 到 底 
是 怎样 在 那么 小 的 内 存 下 运行 得 如 此 流畅 的 呢 ? 真是 想 不 通 啊 。 











因此 ， 问 题 是 我 们 要 如 何 利 用 这 些 数据 呢 ? 也 许 面向 个 人 的 数据 仓库 之 类 的 数据 分 析 工 具 
会 开始 受到 关注 。 当 然 ， 这 种 工具 到 底 应 该 在 客户 端 运行 ， 还 是 在 服务 需 端 运行 ， 取 决 于 性 能 
和 带宽 之 间 的 平衡 。 











在 存储 器 容量 方面 ， 与 未 来 预测 相关 并 值得 关注 的 一 个 动向 ， 就 是 访问 速度 。 虽 然 容量 在 
以 惊人 的 速度 增长 ,但 读 取 数 据 的 速度 却 没有 按照 匹配 的 速度 来 提高 。 便 盘 的 寻 址 速度 没什么 
长 进 ， 总 线 的 传输 速度 也 是 半斤八两 。 不 过 ， 像 内 存 这 样 比 硬盘 更 快 的 外 部 存储 设备 ， 现 在 也 
已 经 变 得 越 来 越 便宜 了 ， 由 闪存 构成 的 固态 硬盘 ( Solid State Drive，SSD ) 已 经 相当 普遍 ， 完 
全 可 以 作为 硬盘 的 奉 代 品 。 按 照 这 个 趋势 发 展 下 去 ， 在 不 久 的 将 来 ， 说 不 定 由 超 高 速 低 容 量 的 
核心 内 置 缓存 、 高 速 但 断 电 会 丢失 数据 的 主 内 存 (RAM )， 以 及 低速 但 可 永久 保存 数据 的 外 部 
存储 器 ( HDD ) 所 构成 的 层次 结构 将 会 消失 ， 取 而 代 之 的 可 能 将 会 是 由 大 规模 的 缓存 ， 以 及 高 
速 且 能 永久 保存 数据 的 内 存 所 构成 的 新 的 层次 结构 。 如 果 高 速 的 主 内 存 能 够 永久 保存 数据 ， 依 
赖 过 去 结构 的 数据 库 等 系统 都 将 产生 大 规模 的 结构 改革 。 实 际 上 ， 以 高 速 SSD 为 前 提 的 数据 库 
系统 ， 目 前 已 经 在 进行 研发 了 。 
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作 从 带宽 看 未 来 


带宽 ， 也 就 是 网 络 中 数据 传输 的 速度 ， 也 在 不 断 增 大 。 一 般 家 庭 的 上 网 速度 ， 已 经 从 模拟 
调制 解 调 器 时 代 的 不 到 100Kbit/s， 发 展 到 ADSL 时 代 的 10Mbit/s， 再 到 现在 光纤 时 代 的 超过 
100Mbit/s， 最 近 连 理论 上 超过 1Gbit/s 的 上 网 服务 也 开始 面向 一 般 家 庭 推 出 了 。 























可 
PE 天 




















网 络 带宽 的 增加 ， 会 对 网 络 两 端的 平衡 性 产生 影响 。 在 网 络 速度 很 慢 的 时 代 ， 各 种 处 理 只 
能 在 本 地 来 进行 ， 然 后 将 处 理 结果 分 批发 给 中 央 服 务 咒 ， 再 由 中 央 服 务 需 进行 统计 ， 这 样 的 手 
法 十 分 常见 。 这 就 好 像 回 到 了 计算 机 还 没有 普及 ,大 家 还 用 算盘 和 账本 做 着 “本 地 处 理 ” 的 时 代 。 











然而 后 来 ， 各 种 业务 的 处 理 中 都 开始 使 用 计算 机 ， 每 个 人 手 上 的 数据 都 可 以 发 送 到 中 央 计 
算 机 并 进行 实时 处 理 。 但 由 于 那 时 的 计算 机 还 非常 昂贵 , 因此 只 是 在 周围 布置 了 一 些 被 称 为 “ 终 
端 ” 的 机 需 ， 实 际 的 处 理 还 是 由 设 在 中 央 的 大 型 计算 机 来 完成 的 。 那 是 一 个 中 央 集 权 的 时 代 。 











在 那 以 后 ， 随 着 计算 机 价格 的 下 降 ， 每 个 人 都 可 以 拥有 自己 的 一 台 计 算 机 了 。 由 于 计算 机 
可 以 完成 的 工作 也 变 多 了 ， 因 此 每 个 人 手 上 的 “客户 端 ” 计 算 机 可 以 先 完成 一 定 程度 的 处 理 ， 
然后 仅仅 将 最 终结 果 传送 给 位 于 中 央 的 “服务 器 ”， 这 样 的 系统 结构 开始 普及 起 来 ， 也 就 是 所 谓 
的 “客户 端 /服务 器 系统 ”( Client-Server system )， 也 有 人 将 其 简称 为 “CS 系统 ”。 























然而 ， 如 果 网 速 提 高 的 话 ， 让 服务 器 一 侧 完 成 更 多 的 处 理 ， 在 系统 构成 上 会 更 加 容易 。 典 
型 的 例子 就 是 万 维 网 ( World Wide Web，WWW )。 在 网 速 缓慢 的 年 代 ， 为 了 查询 数据 而 去 直接 
访问 一 个 可 能 位 于 地 球 背 面 的 服务 器 ， 这 种 事 是 难以 想象 的 ， 如 此 浪费 贵重 的 带宽 资源 ， 是 要 
被 骂 得 狗 血 淋 头 的 。 话 说 ， 现 在 的 网 络 带 宽 已 经 像 白菜 一 样 便宜 了 ， 这 样 一 来 ， 客 户 端 一 侧 只 
需要 准备 像 “ 浏 览 器 ”这 样 一 个 通用 终端 ， 就 可 以 使 用 全 世界 的 各 种 服务 了 ， 如 此 美好 的 世界 
已 经 成 为 了 现实 。 由 于 大 部 分 处 理 是 在 服务 器 一 侧 执行 的 ， 因 此 乍 看 之 下 仿佛 是 中 央 集 权时 代 
的 复 尽 ， 不 同 的 是 ， 现 在 我 们 可 以 使 用 的 服务 多 种 多 样 ， 而 且 它们 位 于 全 世界 的 各 个 角落 。 















































但 是 ， 计 算 机 性 能 和 带宽 之 间 的 平衡 所 引发 的 拔河 比赛 并 没有 到 此 结束 。 近 年 来 ， 为 了 提 
供 更 丰富 的 服务 ， 更 倾向 于 让 JavaScript 在 浏览 带 上 运行 ,这 实际 上 是 “客户 端 /服务 右 系 统 ” 
换个 马甲 又 复活 了 。 此 外 ， 服 务 器 一 侧 也 从 一 台 计 算 机 ， 变 成 了 由 许多 台 计 算 机 紧密 连接 所 构 
成 的 云 计算 系统 。 换 个 角度 来 看 的 话 ， 以 前 由 一 台大 型 机 所 提供 的 服务 ， 现 在 变 成 由 一 个 客户 
端 / 服务 需 结 构 来 提供 了 。 























今后 ， 在 性 能 和 带宽 寻求 平衡 的 过 程 中 ， 网 络 彼 此 两 端的 系统 构成 也 会 像 钟 摆 一 样 播 个 不 
停 。 从 以 往 的 情况 来 看 ， 随 着 每 次 钟 摆 的 来 回 ， 系 统 的 规模 、 扩 展 性 和 自由 度 都 能 够 得 到 提高 ， 
今后 的 发 展 也 一 定 会 遵循 这 样 一 个 趋势 。 
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第 | 间 编程 的 时 间 和 空间 


依 小 结 























在 这 里 ， 我 们 瞄准 从 过 去 到 现在 发 展 方向 的 延长 线 ， 运 用 极限 思考 法 ,尝试 着 对 未 来 进行 











了 预测 。 书 籍 是 可 以 存放 很 久 的 ，5 年 、10 年 之 后 下 


了 次 翻 开 这 本 书 的 时 候 ， 到 底 这 里 的 预测 能 











不 能 言 中 呢 ? 言 中 的 话 自然 感到 开心 ， 没 言 中 的 话 我 们 就 一 笑 了 之 吧 ， 胜 败 帮 兵家 常事 嘛 。 
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大 家 知道 世界 上 最 早 的 编程 语言 是 什么 吗 ? 一 般 认为 是 1954 
年 开始 开发 的 FORTRAN 语言 。 


SN 





然而 ， 仔 细 想 想 看 ， 到 底 什 么 才 叫 编程 语言 ”如 果 将 对 机 需 
的 控制 也 看 成 是 编写 “程序 ”的 话 ， 那 么 编程 的 起 源 便 可 以 追溯 
到 杰 卡 德 织 机 上 面 所 使 用 的 打 孔 纸 带 (图 1 )。 


1801 年 ， 正 值 工业 革命 期 间 ， 杰 卡 德 织 机 的 发 明 使 得 提花 纺 
织 的 图 案 可 以 通过 “程序 ”来 自动 完成 。 从 前 在 各 个 家 庭 中 也 出 
现 了 自动 纺织 机 ， 用 于 家 庭 作坊 式 的 自动 纺织 生产 ， 而 杰 卡 德 织 
机 则 相当 于 是 这 些 家 庭 纺织 机 的 放大 版 我 想 那些 自动 纺织 机 应 
该 也 可 以 通过 类 似 打 孔 纸 带 的 东西 来 输 和 图案， 当然 ， 最 近 的 年 
经 人 恺 怕 都 没有 亲眼 见 过 纺织 机 吧 。 BU 









































这 种 用 打 孔 纸 带 来 控制 机 器 的 想法 ， 对 各 个 领域 都 产生 了 影响 。 例 如 在 英国 从 事 通 用 计算 
机 研发 的 查尔斯 " 巴 贝 奇 ， 就 在 自制 的 “分 析 机 ”上 用 打 孔 纸 带 来 输入 控制 程序 。" 遗憾 的 是 ， 
由 于 资金 和 其 他 一 些 问题 ， 巴 贝 奇 在 生前 未 能 将 他 的 分 析 机 制造 出 来 。 





不 过 ,分 析 机 的 设计 已 经 完成 ,用 于 分 析 机 的 程序 也 作为 文档 保留 了 下 来 。 协 助 开发 这 些 
程序 的 ， 是 英国 诗人 拜 伦 之 女 爱 达 ' 洛 夫 莱 斯 ”， 据 说 她 和 巴 贝 奇 是 师兄 妹 关系 。 如 果 不 算 分 析 
机 的 设计 者 巴 贝 奇 ， 那 么 世界 上 第 一 位 程序 员 实际 上 是 一 位 女性 。 为 了 纪念 她 ， 还 有 一 种 编程 
语言 以 她 的 名 字 Ada 命名 。 























说 点 题 外 话 ， 在 现在 的 编程 界 中 ， 女 性 人 数 很 少 这 一 点 是 有 目 共 睹 的 ， 尤 其 是 在 开源 相关 
的 活动 上 ， 男 女 比 例 达 到 100 比 1 也 不 稀奇 。 其 实 ， 在 计算 机 早期 时 代 ， 有 记录 表明 人 们 大 都 





@ 查尔斯 。 巴 贝 奇 ( Charles Babbage，1791 一 1871 )， 是 英国 数学 家 ， 计 算 机 先驱 ， 可 编程 计算 机 的 发 明 者 。 分 析 
机 ( Analytical Engine ) 是 巴 贝 奇 设 计 的 一 种 机 械 式 十 进 制 通用 计算 机 ， 虽 然 由 于 种 种 原因 ， 它 并 未 被 真正 制造 
出 来 ， 但 其 设计 理念 可 以 说 是 100 年 后 电子 通用 计算 机 的 先驱 。 

@) 爱 达 ，。 洛 夫 莱 斯 (Ada Lovelace，1815 一 1852 )， 原 名 奥 古 斯 塔 。 爱 达 。 拜 伦 ， 洛 夫 莱 斯 是 丈夫 威廉 。 洛 夫 莱 斯 伯 
事 的 姓氏 。 

(@ 这 里 指 的 是 1980 年 由 美国 军 方 设计 的 一 种 名 为 Ada 的 编程 语言 。 
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认为 程序 员 应 该 是 女性 从 事 的 工作 ， 也 许 是 人 们 将 程序 员 和 当时 电话 交换 机 的 接线 员 ( 从 业者 
中 也 是 女性 居多 ) 看 成 是 同一 类 型 的 工作 吧 。 








在 被 称 为 世界 上 第 一 台 计 算 机 的 ENIAC" (1946 年 ) 中 ， 程 序 不 是 用 打 孔 纸 带 ， 而 是 通过 
接 电 线 的 方式 来 输入 的 ， 我 总 觉得 这 是 一 种 倒退 。 





不 过 ， 无 论 是 接 电线 ， 还 是 打 孔 纸 带 ， 都 不 大 可 能 实现 复杂 的 程序 ， 真 正 的 程序 恐怕 还 要 
等 到 存储 程序 式 计 算 机 出 现 之 后 。 一 般 认 为 ， 世 界 上 第 一 台 存 储 程序 式 电 子 计 算 机 ， 是 1949 年 
出 现 的 EDSAC2 。 














到 了 这 个 时 候 ， 所 谓 的 “机 器 语言 ”就 算 正 式 问世 了 。 当 时 的 计算 机 程序 都 是 用 机 器 语言 
来 编写 的 。 那 个 时 候 不 要 说 是 编译 器 ， 连 汇编 器 都 还 没 发 明 出 来 呢 ， 因 此 使 用 机 咒语 言 也 是 理 
所 当然 的 事 。 








说 到 底 ， 机 融 语 言 就 是 一 串 数字 ， 将 计算 的 步 又 从 指令 表 中 查 出 对 应 的 机 天语 言 编码 ， 再 
人 工 写 成 数列 ， 这 个 工作 可 不 容易 。 或 者 说 ， 以 前 的 人 虽然 没有 意识 到 ， 但 从 我 们 现代 人 的 角 
度 来 看 ， 这 种 注音 简直 是 难以 置信 。 比 如 说 ， 把 引导 程序 的 机 需 语 言 数列 整个 背 下 来 ， 每 次 局 
动 的 时 候 手工 输入 进去 ; 将 机 需 语 言 指令 表 全 部 背 下 来 ， 不 用 在 纸 上 打 草稿 就 能 直接 输入 机 需 
语言 指令 并 正确 运行 一 一 “古代 ”的 程序 员 们 留 下 了 无 数 的 光辉 事迹 (或 者 是 传说 )， 那 时 候 的 
人 们 真是 太 伟 大 了 。 























然而 有 一 天 ， 有 一 个 人 忽然 想到 ， 查 表 这 种 工作 本 来 应 该 是 计算 机 最 擅长 的 ， 那 么 让 计算 
机 自己 来 做 不 就 好 了 吗 ? 于 是 ， 人 们 用 更 加 容易 记忆 的 指令 ( 助 记 符 ) 来 代替 数值 ， 并 开发 了 
一 种 能 够 自动 生成 机 此 语言 的 程序 ， 这 就 是 汇编 絮 。 























汇编 需 是 用 来 解释 “汇编 语言 ”的 程序 ， 汇 编 语言 中 所 使 用 的 助 记 符 ， 和 计算 机 指令 是 
一 一 对 应 的 关系 。 早 期 的 计算 机 主要 还 是 用 于 数值 计算 ， 因 此 数学 才 是 主 守 。 在 数学 的 世界 中 ， 
数 百 年 来 传承 下 来 的 “语言 ”就 是 算式 ， 因 此 用 接近 算式 的 形式 来 编写 计算 机 指令 就 显得 相当 
方便 。 随 后 ，FORTRAN 于 1954 年 问世 了 。FORTRAN 这 个 名 字 的 意思 是 : 























FORmula TRANS1ator 
算式 翻译 器 


也 就 是 说 , 编程 语言 是 由 编程 者 根据 自己 的 需要 发 明 出 来 的 。 早 期 的 计算 机 , 由 于 性 能 不 足 、 





























Q@ ENIAC (Electronic Numerical Integrator And Computer， 电 子 数值 积分 计算 机 )， 是 由 美国 宾夕法尼亚 大 学 称 尔 电 
气 工程 学 院 设计 建造 的 电子 计算 机 ， 于 1946 年 公布 ， 为 美国 陆军 的 弹道 研究 实验 室 服务 。 

@) EDSAC (Electronic Delay Storage Automatic Calculator， 电 子 延 迟 存储 自动 计算 器 )， 是 英国 剑桥 大 学 数学 实验 
室 的 莫 里 斯 。 威 尔 克 斯 (Maurice Wilkes，1913 一 2010 ) 教授 及 其 团队 于 1946 年 开始 设计 建造 的 电子 计算 机 ， 
1949 年 5 月 6 日 正式 运行 。 
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2.1 编程 语言 的 世界 

















运算 成 本 高 ， 因 此 编写 和 维护 程序 都 被 看 成 是 非 人 的 工作 ， 而 编程 语言 正 是 其 开始 摆脱 非 人 性 
的 象征 。 
其 实 ， 由 助 记 符 自动 生成 机 需 语 言 的 汇编 器 ， 以 及 由 人 类 较 易 懂 的 算式 型 语句 生成 机 器 语 


言 的 编译 需 ， 当 时 都 被 认为 是 革新 性 的 技术 ， 被 称 为 “自动 编程 ”。 此 外 ， 编 译 需 开发 技术 的 人 研 
究 甚 至 被 视 为 人 工 智能 研究 的 一 部 分 。 

































































匀 被 历史 埋没 的 先驱 











一 般 大 家 都 认为 ENIAC 是 世界 上 第 一 台 计 算 机 ， 而 FORTRAN 是 世界 上 第 一 个 编程 语言 ， 
然而 ， 事实 果 真如 此 吗 ? 我 觉得 有 必要 侧根 问 底 一 番 。 























实际 上 ， 如 有 果 仔 细 查 阅 一 下 计算 机 的 历史 ,还 是 会 发 现 一 些 不 同 观 点 的 。 





首先 ， 世 界 上 第 一 台 计 算 机 ， 其 实 应 该 是 “ 阿 塔 纳 索 夫 - 贝 瑞 计 算 机 ”( Atanasoff-Berry 
Computer， 简 称 ABC )， 这 人 台 计 算 机 的 测试 机 完成 于 1939 年 ， 远 比 ENIAC 要 早 。 而 且 ，ABC 
在 数值 的 表现 方法 上 采用 了 现在 广泛 使 用 的 二 进 制 计算 (ENIAC 为 十 进 制 计 算 )， 这 也 是 ABC 
的 其 中 一 个 先进 之 处 。 














ENIAC 甚至 都 不 能 算 作 是 世界 上 第 二 人 台 计 算 机 。 当 时 在 第 二 次 世界 大 战 中 与 美国 敌对 的 德 
国 ， 开 发 出 了 一 台 用 于 土木 工程 计算 的 计算 机 Z3”。 这 台 计 算 机 完成 于 1941 年 ， 和 ABC 一 样 ， 
在 数值 表现 上 也 采用 了 二 进 制 。 和 由 电子 管 组 成 的 ABC 和 ENIAC 不 同 , Z3 是 继 电 噩 式 计算 机 。 
遗憾 的 是 ，23 在 1944 年 柏林 厂 炸 中 被 毁 。 




















那么 ， 编 程 语言 方面 又 如 何 呢 ? 通过 查阅 资料 发 现 ， 开 发 Z3 的 德国 工程 师 康 拉 德 . 楚 泽 ， 
于 1942 年 至 1945 年 间 开 发 了 一 种 名 为 Plankalkiil 的 编程 语言 ， 比 FORTRAN 早 了 将 近 10 年 .9 
然而 ，Plankalkiil 只 是 被 设计 出 来 ， 而 没有 被 正式 发 表 ， 而 且 用 于 该 编程 语言 的 编译 器 也 没有 被 
开发 出 来 。 





























Plankalkiil 的 设计 直到 1972 年 才 被 正式 发 表 ， 而 到 第 一 个 用 于 该 语言 的 编译 器 正式 实现 ， 
已 经 是 1998 年 的 事 了 。 因 此 ， 如 果 论 完整 开发 并 能 工作 的 编程 语言 ，FORTRAN 作为 最 古老 编 
程 语 言 的 地 位 还 是 无 人 能 够 撼动 。 






































Q@ 在 23 之 前 当然 还 开发 了 Zl 和 2Z2, 但 它们 是 用 于 特定 用 途 的 计算 机 ， 而 并 非 通 用 计算 机 。( 原 书 注 
@) 康 拉 德 。 楚 泽 (Konrad Zuse，1910 一 1995 )， 是 一 位 德国 土木 工程 师 ， 计 算 机 先驱 。Plankalkiil 被 认为 是 世界 上 
第 一 个 非 汉 ，。 诺 依 曼 型 高 级 编程 语言 ， 它 的 名 称 在 德语 中 的 意思 是 “用 于 规划 的 正式 系统 ”( Formal system for 


planning )。 


— 
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xs 编程 语言 的 过 去 、 现 在 和 未 来 


Plankalkiil 由 于 种 种 原因 被 淹没 在 历 pl max3 (V0[:8.0],V1[:8.0],V2[:8.0]) => 


史 的 长 河中 ,因此 它 对 后 世 的 编程 语言 人 
、 2 晤 max 2s.0], 8 二 :8% 
平 没 有 产生 影响 , 但是， 它 却 考 虑 了 如 赋 max (7Z1[:8.0],V2[:8.0] ) => RO[:8.0] 
be 口 Ey HY | | pA 局 vy 占 END 
Ua 了 于 程序 、 条 件 判断 、 循 环 、 学 点 Boaxe CVOT 8 On eu 0 > RO eNO 
小 数 计算 、 数 组 、 拥 有 层次 结构 的 结构 体 、 VO[:8.0] => 71[:8.0] 
ee A (ZI1Ls0.0] < Vird.00) -> ViL:.00 => Zifst.0 
断言 、 异 常 处 理 、 目 标 搜寻 等 功能 , 其 四 计 S 0 症 
中 一 些 甚至 连 10 年 后 出 现 的 FORTRAN END 


都 不 具备 ， 可 见 其 先进 性 着 实 令 人 惊叹 。 图 2 用 Plankalkol 编写 的 程序 



































图 2 给 出 了 一 段 Plankalkiil 程序 ， 其 中 定义 了 用 于 对 两 个 参数 进行 比较 的 子 程序 max， 以 
及 利用 这 个 子 程序 进而 对 三 个 参数 进行 比较 的 子 程序 max3。 其 中 所 有 的 运算 过 程 都 被 表示 为 “ 计 
算 => 结果 保存 位 置 ”这 样 的 形式 ， 相 当 有 意思 。 




















尺 编程 语言 的 历史 





在 FORTRAN 之 后 ，20 世纪 50 年 代 末 至 80 年 代 初 ， 各 种 各 样 的 编程 语言 如 雨后春笋 般 相 
继 出 现 ， 从 而 成 就 了 一 个 编程 语言 研究 飞速 发 展 的 鼎盛 时 期 。 








在 这 里 ,我 们 暂且 抛 开 那 些 现在 还 健在 的 主流 编程 语言 ， 而 是 将 目光 放 在 一 些 最 近 不 怎么 
听 说 了 ,但 却 值得 品味 的 编程 语言 上 ， 并 借 此 简单 介绍 一 下 编程 语言 的 历史 。 


























1. FORTRAN 


话说 回来 一 开始 我 们 还 是 先 来 计 讲 FORTRAN 这 个 主流 语言 吧 。 








FORTRAN 作为 实质 上 的 地 界 第 一 种 编程 语言 ， 在 数值 计算 领域 建立 了 霸主 地 位 。 需 要 数 
值 计算 功能 的 物理 学 家 等 研究 人 员 并 不 关心 编程 ， 对 他 们 来 说 ， 计 算 速 度 有 多 快 ， 是 否 能 充分 
利用 过 去 的 成 果 ， 这 两 点 才 是 最 重要 的 。 

从 结果 来 看 ，FORTRAN 非常 重视 和 过 去 的 程序 之 间 的 兼容 性 ， 为 此 ， 它 保留 了 一 些 现在 
已 经 几乎 不 再 使 用 的 编码 风格 ， 其 中 最 典型 的 一 个 例子 ， 就 是 FORTRAN 的 语法 中 所 包含 的 下 
面 这 个 难以 置信 的 规则 。 



























































在 程序 中 空格 没有 意义 

















这 个 规则 的 意思 是 ， 空 格 只 是 为 了 易 读 才 加 上 去 的 ， 而 编译 需 在 编译 程序 时 会 把 空格 全 部 
去 掉 。 这 样 的 语法 ， 以 现代 编程 语言 的 习惯 来 看 简直 是 匪夷所思 。 为 什么 这 样 说 呢 ? 例如 : 
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DELUORE 三 ELO 

这 样 一 行程 序 ， 它 的 语法 和 DO 语句 的 语法 是 一 致 的 ， 程 序 的 意思 是 在 循环 中 将 从 1 到 10 
的 值 依次 赋值 给 变量 I， 当 循环 结束 之 后 跳 转 到 行 号 为 100 的 语句 ， 到 这 里 看 起 来 也 没有 什么 
问题 o 











不 过 , 如 果 我 将 DO 语句 中 “1,10” 中 的 逗号 错 打 成 句 点 的 话 , 会 发 生 什 么 事 呢 ?” 也 就 是 说 : 
DO 100 1 = 1.10 

我 们 之 前 已 经 说 过 ，FORTRAN 会 忽略 所 有 的 空格 ， 那 么 这 个 语句 就 会 被 转换 为 : 
D0100I=1.10 

这 样 一 来 ， 由 于 这 个 语句 不 符合 DO 语句 的 语法 ， 因 此 编译 器 会 将 这 个 语句 理解 为 “将 浮 
点 小 数 1.10 赋值 给 变量 DO1001”"， 编 号 为 100 的 那 一 行 则 被 彻底 忽略 掉 了 。 也 就 是 说 ， 本 来 程 
序 的 意图 是 要 执行 一 个 循环 ， 现 在 却 变 成 了 一 个 赋值 语句 ， 循 环 也 就 无 效 了 。 这 可 以 说 是 在 语 
法 分 析 相 关 研 究 相 对 落后 的 年 代 设 计 出 来 的 编程 语言 所 特有 的 悲剧 。 






































男 一 方面 ， 追 求 计算 速度 的 人 们 依然 在 使 用 着 FORTRAN， 并 且 积 累 了 一 些 十 分 大 胆 的 优 
化 技术 。 例 如 ， 为 了 最 大 限度 利用 超级 计算 机 中 装备 的 向 量 处 理 锅 ， 而 自己 改写 DO 循环 以 实 
现 向 量化 等 。 














最 近 的 超级 计算 机 也 几乎 不 再 使 用 向 量 型 结构 ， 因 此 也 很 少 会 遇 到 必须 使 用 FORTRAN 的 
情况 ， 使 用 超级 计算 机 的 研究 人 员 更 多 地 开始 使 用 Java 和 C++ 之 类 的 语言 。 不 过 ， 即 便 如 此 ， 
FORTRAN 也 并 没有 要 消亡 的 迹象 。 


此 外 ，FORTRAN 本 身 也 在 不 断 进化 ， 在 最 新 版 本 中 还 实现 了 如 编程 抽象 化 、 数 据 结构 分 
配 等 功能 ， 和 其 他 先进 编程 语言 相 比 毫 不 逊色 。 
































2. COBOL 








COBOL 这 个 名 称 是 COmmon Business Orientd Language ( 面向 商业 的 通用 语言 ) 的 缩写 ， 
相对 于 面向 科学 计算 的 FORTRAN，COBOL 是 作为 面向 商务 计算 而 出 现 的 编程 语言 ， 于 1959 
年 被 开发 出 来 。 























基于 下 面 的 推理 : 








口 由 于 是 面向 商业 计算 ， 因 此 不 需要 太 多 的 算式 
口 对 于 从 事 商业 活动 的 “一 般 大 众 ” 来 说 ， 采 用 更 接近 日 常 表 达 方 式 〈( 瑞 语 ) 的 语法 ， 比 
采用 数学 算式 更 容易 理解 
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COBOL 采用 了 类 似 英语 的 语法 ， 但 对 于 我 这 个 日 本 人 来 说 ， 把 : 


写成 : 
MULTIPLY A BY B GIVING AB. 


真 的 更 容易 理解 吗 ? 恺 怕 要 打 一 个 大 大 的 问号 。 





不 过 ， 由 于 积累 了 大 量 过 去 的 数据 ，COBOL 直到 21 世纪 的 今天 依然 健在 。 虽 然 在 计算 机 
类 杂志 中 已 经 看 不 到 关于 COBOL 的 文章 ， 但 也 有 说 法 称 ，COBOL 依然 是 现在 使 用 最 广泛 的 一 
种 编程 语言 。 





实际 上 , 在 我 供职 的 网 络 应 用 通信 人 研究 所 中 , 有 一 半 的 技术 人 员 是 用 Ruby 来 进行 软件 开发 ， 
剩 下 一 半 则 是 使 用 COBOL 。 不 过 我 们 用 的 硬件 只 是 普通 的 PC 服务 器 ， 操 作 系 统 用 的 是 Linux， 
其 他 事务 监视 器 等 工具 用 的 也 都 是 开源 软件 ， 这 倒是 还 挺 少见 的 。 






































那么 ，COBOL 到 底 好 不 好 用 呢 ? 从 像 我 这 样 没 用 过 COBOL 的 人 的 角度 来 看 ， 一 定 会 觉 
得 “这 啥 啊 ， 跟 别 的 程序 差别 太 大 了 吧 ”， 不 过 COBOL 的 技术 人 员 会 主张 说 “如 果 要 实现 把 账 
短 里 的 数字 从 右边 移 到 左边 ， 即 便 在 现在 COBOL 也 是 效率 最 高 的 "。 即 使 排除 他 们 已 经 用 惯 了 
COBOL 这 个 因素 ， 这 个 评价 还 是 相当 值得 回味 的 。 























COBOL 也 在 不 断 进化 ， 据 说 在 最 新 版 本 中 还 增加 了 面向 对 象 的 功能 。 





3. Lisp 





Lisp 和 FORTRAN、COBOL 一 起 并 称 为 “古代 编程 语言 三 巨头 ”( 我 命名 的 )， 它 的 名 字 意 








LiSE Processor 
表 处 理 器 


Lisp 是 一 种 特殊 的 编程 语言 ， 因 为 它 原本 并 不 是 作为 编程 语言 ， 而 是 作为 一 种 数学 计算 模 
型 来 设计 的 。Lisp 的 设计 者 约翰 麦卡锡 设计 了 一 种 以 Lambda 演算 为 基础 的 “图 灵 完 全 ” "的 



































J 约翰。 麦卡锡 〈 John McCarthy，1927 一 2011 ) 是 美国 著名 的 计算 机 科学 家 ， 于 1971 年 因 人 工 智能 方面 的 贡献 获 
得 图 灵 奖 。Lambda 演算 ( Lambda calculus ) 是 由 阿 隆 佐 。 邱 奇 ( Alonzo Church，1903 一 1995 ) 提出 的 一 种 十 分 
简洁 的 计算 模型 ,是 Lisp 等 函数 型 编程 语言 的 理论 基础 。 它 不 同 于 通用 图 灵机 的 计算 模式 , 但 它 是 图 灵 完 全 的 。 
图 灵 完 全 ( Turing complete ) 是 指 一 种 计算 模型 拥有 和 通用 图 灵机 相同 的 计算 能 力 ， 即 一 种 计算 模型 可 以 实现 
对 目前 已 知 所 有 算法 的 描述 。 目 前 大 部 分 通用 编程 语言 (如 C、Java 等 ) 都 是 图 灵 完 全 的 。 
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计算 模型 ， 而 Lisp〈 的 起 源 ) 则 是 为 了 描述 这 一 模型 而 设计 出 来 的 。 


不 过 ， 麦 卡 锡 并 没有 想到 将 其 作为 一 种 计算 机 语言 来 使 用 ， 直 到 他 实验 室 的 一 位 研究 生 史 
帝 芬 .罗素 用 IBM 704 机 器 语言 实现 了 描述 计算 模型 的 万 能 函数 eval ( 求 值 函数 )，Lisp 才 作 为 
一 种 编程 语言 正式 诞生 。?” 




















此 外 ，Lisp 是 早期 能 够 对 数值 以 外 的 值 进 行 处 理 的 语言 。 相 对 于 FORTRAN 和 COBOL 这 
样 只 能 进行 数值 计算 的 语言 来 说 ，Lisp 擅长 于 表 结 构 这 样 的 非 数值 型 处 理 ， 因 此 ，Lisp 被 广泛 
用 于 人 工 智能 这 样 的 领域 中 。 





在 20 世纪 60 年 代 ， 一 般 人 还 不 会 为 了 计算 以 外 的 目的 使 用 计算 机 ， 因 此 Lisp 主要 在 大 学 
和 研究 所 等 地 方 传播 开 来 。 


现在 的 计算 机 对 字符 串 处 理 和 通信 等 非 数 值 处 理 已 经 成 为 主流 ， 而 Lisp 则 是 这 样 一 个 时 代 
的 先驱 者 。 此 外 ， 因 Java 而 广为人知 的 垃圾 回收 和 异常 处 理 等 机 制 ， 实 际 上 最 初 是 由 Lisp 发 明 
的 。 因 此 ，Lisp 对 现在 的 计算 机 科学 基础 的 构筑 做 出 了 极 大 的 贡献 ， 尽 管 使 用 者 寥寥 ,但 现在 
它 依然 是 用 于 实用 系统 开发 的 现役 编程 语言 。 








4. SNOBOL 


早期 的 Lisp 所 能 够 处 理 的 数据 只 有 表 和 符号 ， 并 不 擅长 处 理 字 符 串 。 而 一 种 专门 用 于 
字符 串 处 理 的 语言 ， 在 历史 上 扮演 了 重要 的 角色 ， 它 就 是 SNOBOL (发音 近似 Snow Ball )。 
SNOBOL 的 名 字 意 思 是 : 





StriNg Oriented symBOlic Language 
字符 串 面向 符号 化 “语言 
其 中 NN 和 BO 取 的 位 置 好 像 很 奇怪 ,不 过 别 太 在 意 就 是 了 。SNOBOL 的 革新 性 在 于 它 是 以 
模板 (Pattern ) 为 中 心 来 进行 字符 串 处 理 的 , 可 以 说 是 现在 的 AWK、Perl 和 Ruby 等 语言 的 祖先 。 
不 过 SNOBOL 的 字符 串 模 板 并 不 是 正则 表达 式 ， 而 是 采用 了 类 似 BNF ( 巴 科斯 - 诺尔 范式 ) 2? 
的 写法 。 























由 这 样 的 编程 语言 所 积累 的 经 验 ， 可 以 说 是 加 快 了 计算 机 向 数值 计算 以 外 的 方向 发 展 的 
步伐 。 








Q@ IBM 704 是 由 IBM 公司 于 1954 年 推出 的 内 置 浮 点 计算 功能 的 大 型 计算 机 ，FORTRAN 和 Lisp 等 编程 语言 都 是 

在 IBM 704 上 开发 出 来 的 。 

@@ 巴 科斯 -诺尔 范式 (Backus-Naur Form )， 是 由 约翰 。 巴 科斯 ( John Backus，1924 一 2007 ) 和 彼得 。 诺 尔 (Peter 
Naur，1928 一 “) 首先 引入 的 用 来 描述 计算 机 语言 语法 的 符号 集 ， 是 一 种 描述 上 下 文 无 关 文 法 的 语言 。 
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图 3 展示 了 一 段 用 SNOBOL 的 模板 匹配 来 解 N 皇后 问题 ?的 程序 。 当 模板 匹配 时 跳 转 到 一 
个 明确 标明 的 标签 ， 这 样 的 风格 现在 已 经 不 怎么 见得 到 了 。 





* N queens problem, a string oriented version to 
* demonstrate the power of pattern matching. 
* A numerically oriented version will run faster than this. 
由 全 5 
NI 二 汪汪 NEPE 二 省 NE eS NN SIM ee 0 
** 9; &ANCHOR = 1 
DEBINEIO SORVENIQB I) 
* This pattern tests if the first queen attacks any of the othe 


人 SR 
LEESITE BREAKS(G OPO GARBNONGEENEGND RENIGNDO OY 
十 JARBNORONENSGNP Se ENEGNBIO Oy 
十 | ARBNO (LEN CNM1) "-") LEN (NM1 ) "Q") 
Pla NENEGNMI eX EN DU NM 
SOLEWEE :END 
SO ea Ns DD SDN 
* Add another row with a queen: 
BE 二 B 


LOOP RN 
RESTIESSEGNEXIR) 


SOLRVERGES 
* Try queen in next square: 
NEXT BP = L000 


PRINT SomoN SOOoN on 
OUTPUT = "Solution number ' SOLUTION ' is:" 
PIRINOOPI BENECNE LOUD ST (ERIOO ENEURND 





图 3 用 SNOBOL 来 解 N 皇后 问题 的 程序 











5. 数学 性 语言 


刚才 已 经 讲 过 ，Lisp 是 由 数学 而 诞生 的 编程 语言 ， 不 过 这 样 的 语言 可 不 止 Lisp 一 个 。 





例如 ，Prolog 就 是 一 个 以 一 阶 谓词 逻辑 为 基础 的 编程 语言 。20 世纪 80 年 代 ， 日 本 政府 主导 
的 第 五 代 计 算 机 计划 ?中 就 采用 了 Prolog (准确 地 说 应 该 是 以 Prolog 为 基础 的 逻辑 型 编程 语言 )， 
使 得 其 名 声 大 噪 ， 但 当 第 五 代 计 算 机 计划 逐渐 淡出 人 们 的 视线 之 后 ，Prolog 也 随 之 销声匿迹 了 。 
不 过 ， 逮 辑 型 编程 语言 所 具备 的 “联合 ”( Unification ) 匹配 模式 ， 也 在 最 近 备 受 关注 的 函数 型 
编程 语言 中 被 继承 了 下 来 。 




































































GO N 皇后 问题 (N-Queen Problem )， 最 初 为 8 皇后 问题 ， 即 如 何在 国际 象棋 棋盘 (8 x8 ) 上 摆 放 8 个 皇后 ， 使 得 
它们 彼此 都 无 法 直接 吃 掉 对 方 〈 即 彼此 不 能 处 于 同一 直线 或 斜 线 上 )。8 皇后 问题 共有 12 个 独立 解 (将 旋转 、 
对 称 解 作为 同一 解 的 话 )， 而 后 来 便 由 此 引申 出 N 皇后 问题 ( 此 时 皇后 个 数 为 N， 且 棋盘 大 小 同时 为 NxN )。 

@ 第 五 代 计算 机 计划 ， 是 由 日 本 通商 产业 省 ( 现 经 济 产 业 省 ) 主导 的 一 项 国家 开发 计划 ， 目 的 是 开发 “可 高 速 执 
行 谓词 逻辑 推理 的 并 行 逻 辑 计 算 机 及 其 操作 系统 ”。 整 个 计划 从 1982 年 启动 ， 共 耗 时 10 年 ， 花 费 570 亿 日 元 ， 
于 1992 年 宣布 结束 ， 并 称 “ 已 达到 预期 目标 ”。 
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以 数学 为 基础 的 


2.1 编程 语言 的 世界 





编程 语言 中 ， 还 有 男 外 一 个 派系 被 称 为 函数 型 编程 语言 ， 例 如 ML、 


Haskell 等 就 属于 这 一 类 。 这 一 类 数学 性 语言 ， 比 起 机 器 的 处 理 方式 ， 更 倾向 于 直接 表达 要 表达 
的 概念 ， 也 就 是 说 相对 于 How( 如 何 实现 )， 更 倾向 于 通过 What ( 想 要 什么 ) 来 表达 问题 。 这 


样 可 以 不 被 机 咒 的 处 到 











方式 所 左右 ， 将 问题 抽象 地 表达 出 来 ， 这 是 一 种 非常 先进 的 特性 。 关 于 





这 一 点 ， 在 后 面 “ 未 来 的 编程 语言 ”一 节 中 还 会 进行 详细 介绍 。 


众人 篆 知 的 那些 编程 语言 就 没 必 要 特地 在 这 里 介绍 了 吧 。 作 为 系统 描述 语言 的 C 和 C++、 





作为 面向 商务 的 语言 而 如 日 中 天 的 Java， 以 及 在 Web 领域 中 十 分 热门 的 Ruby、Perl、Python、 
PHP 等 脚本 语言 ， 都 属于 主流 语言 。 








这 些 语言 在 成 长 


过 程 中 都 吸收 了 过 去 一 些 语言 的 优点 ， 如 Java 的 设计 借鉴 了 C++、 


Smalltalk 和 Lisp 的 优点 ,而 Ruby 则 是 在 吸收 过 去 语言 优点 的 基础 上 加 以 独自 发 展 而 形成 的 语言 。 


名 编程 语言 的 进化 


方向 








从 过 去 编程 语言 的 历史 中 ， 我 们 可 以 看 出 编程 语言 是 在 不 断 试 错 的 过 程 中 发 展 起 来 的 。 有 
很 多 编程 语言 已 经 消 疡 ， 仅 仅 在 历史 中 留 下 了 它们 的 名 字 ， 但 其 中 所 包含 的 思想 ， 却 被 后 来 的 
语言 以 不 同 的 形式 吸取 和 借鉴 。 























例如 ，SNOBOL 的 字符 串 处 理 功 能 ， 可 以 说 是 现代 脚本 语言 基本 功能 的 祖先 。 此 外 ，20 世 
纪 70 年 代 由 美国 麻 省 理工 学 院 (MIT ) 开 发 的 一 种 名 为 CLUY 的 语言 中 迭代 器 ( Iterator ) 的 概念 ， 
也 被 Ruby 以 代码 块 (Block ) 的 形式 继承 了 下 来 。 














从 编程 语言 的 进化 过 程 来 看 ， 一 个 显著 的 关键 词 就 是 “抽象 化 ”。 抽 和 象 化 就 是 提供 一 个 抽象 
的 概念 ， 使 用 者 即便 不 具备 关于 其 内 部 详细 情况 的 知识 ， 也 能 够 对 其 进行 运用 。 由 于 不 必 了 解 
其 内 部 的 情况 ， 因 此 也 被 称 为 “黑箱 化 ”。 

















一 些 古 老 的 编程 语言 ， 例 如 BASIC 就 没有 实现 充分 的 抽象 化 。 里 然 它 提供 了 用 于 过 程 共 享 














的 子 程序 这 个 概念 ， 但 是 子 程序 只 能 通过 编号 来 调用 ， 而 且 不 能 传递 参数 。 由 于 “赋予 名 称 ” 





是 抽象 化 的 重要 部 分 ， 














所 以 说 它 的 抽象 化 是 不 充分 的 。 近 代 的 编程 语言 中 ， 都 可 以 为 一 系列 过 














程 (程序 ) 赋予 相应 的 名 称 。 























QO@ CLU 是 由 MIT 的 芭 芭 拉 。 利 斯 科 夫 (Barbara Liskov,1939 一 “) 所 开发 的 语言 , 利 斯 科 夫 于 2008 年 获得 图 灵 奖 。 




















图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


31 


xs 编程 语言 的 过 去 、 现 在 和 未 来 


32 


然而 ,仅仅 将 过 程 进行 抽象 化 还 远 远 不 够 ,几乎 所 有 的 过 程 都 需要 进行 一 定 的 输入 输出 操作 ， 
而 并 不 是 与 数据 无 关 的 。 因 此 ， 在 下 一 个 阶段 中 ， 对 数据 进行 黑箱 化 就 显得 非常 重要 。 刚 才 我 
们 提 到 的 CLU， 就 是 数据 抽象 化 出 现 早期 的 一 种 语言 。 











在 数据 抽象 化 的 延长 线 上 ， 就 自然 而 然 产 生 了 面向 对 象 编程 的 概念 。 所 谓 对 象 ， 就 是 抽象 
化 的 数据 本 身 ， 因 此 面向 对 象 和 数据 抽象 化 之 间 仪 仅 隔 了 注 薄 的 一 张 纸 。 在 现在 的 21 世纪 编程 
语言 中 ， 面 向 对 象 已 经 是 常识 了 ， 最 近 几 乎 所 有 的 语言 都 或 多 或 少 地 提供 了 面向 对 象 的 能 力 。 
当然 ， 其 中 也 有 一 些 语言 故意 不 提供 对 面向 对 象 的 支持 ”。 











随 着 抽象 化 的 不 断 深 入 ， 程 序 员 即 便 不 去 关心 内 部 的 详细 情况 ， 也 可 以 编写 出 程序 。 人 类 
一 次 所 能 掌握 的 概念 数量 是 有 限 的 ， 有 说 法 称 ， 大 部 分 人 一 次 只 能 驾驭 7+2 个 左右 的 概念 。 这 
样 一 来 ， 如 果 能 够 让 问题 的 处 理 方式 更 加 抽象 ， 也 就 可 以 解决 更 复杂 的 问题 。 

















受 摩尔 定律 的 影响 ， 社 会 对 于 软件 也 提出 了 越 来 越 高 的 要 求 。 人 类 社会 越 来 越 依赖 计算 机 ， 
因此 就 需要 开发 出 更 多 更 可 靠 、 更 便宜 的 软件 。 


在 讲述 软件 开发 的 一 本 名 著 《 人 月 神话 》 中 ， 作 者 弗 雷 德里 克 布鲁克 斯 写 道 : ” 









































无 论 使 用 什么 编程 语言 ， 生 产 一 条 基本 语句 所 需要 的 工 数 几 乎 是 一 定 的 。 








也 就 是 说 ， 如 果 要 描述 同样 的 算法 ，A 语言 需要 1000 行 ，B 语言 只 需要 10 行 的 话 ， 只 要 
采用 B 语言 生产 效率 就 可 以 提高 100 倍 。 











可 能 有 人 会 觉得 “这 太 扯 了 吧 ”。 打 个 比方 , 用 Java 和 Ruby 描述 同样 的 算法 ， 语 句 行 数 相 
差 2 倍 多 也 不 稀奇 ， 如 果 是 汇编 语言 和 了 Ruby 相 比 的 话 ， 也 许 能 产生 100 倍 甚至 1000 倍 的 差距 。 








能 产生 这 样 的 生产 效率 差异 ， 正 是 抽象 化 的 力量 。 抽 象 度 高 的 编程 语言 不 必 描 述 详细 过 程 ， 
从 而 可 以 用 简短 的 代码 达到 目的 。 和 抽象 化 程度 的 差异 相 比 ， 变 量 名 称 、 有 没有 指定 数据 类 型 
之 类 的 都 只 能 算是 误差 级 别 的 差异 而 已 。 














@ 例如 ， 下 一 节 中 将 要 介绍 的 由 保罗 。 格 雷 厄 姆 所 设计 的 Arc 语言 ， 就 ( 至 少 在 其 内 置 功能 中 ) 不 支持 面向 对 象 ， 
据 保 罗 说 ， 是 有 意 这 样 设计 的 。( 原 书 注 ) 

@《 人 月 神话 软件 项 目 管 理 之 道 》% The Mythical Man-Month: Essays on Sofiware Engineering 首次 出 版 于 1975 年 ， 
并 于 1995 年 进行 了 扩充 和 再 版 。 弗 雷 德里 克 。 布 鲁 克 斯 ( Frederick P Brooks, Jr.,1931 一 ”着 美国 的 软件 工程 师 ， 
曾 主 持 开 发 了 IBM 的 OS/360 操作 系统 ， 与 1999 年 获得 图 灵 奖 。 
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2.1 编程 语言 的 世界 


尺 未 来 的 编程 语言 


从 编程 语言 的 进化 这 个 视角 来 看 ， 其 实 最 近 并 没有 什么 大 的 动作 。 现 在 使 用 最 广泛 的 编程 
语言 几乎 都 是 10 多 年 前 出 现 的 , 即便 是 比较 新 的 Java 和 Ruby 也 是 诞生 于 20 世纪 90 年 代 后 半 ， 
距离 现在 也 已 经 是 15 年 之 前 的 事 了 。 也 许可 以 说 ， 现 在 正 是 编程 语言 进化 的 好 时 机 吧 。 























最 近 ， 受 到 CPU 多 核 化 等 因素 的 影响 ，Erlang" 这 种 并 行 处 理 语言 受到 了 不 少 关注 。 不 过 
Erlang 早 在 1987 年 就 诞生 了 ， 也 并 不 是 什么 新 东西 ， 有 点 失望 呀 。 





那么 ,未 来 的 编程 语言 究竟 会 变 成 什么 样 呢 ? 





究 
美国 风险 投资 家 、Lisp 启蒙 家 、 作 家 保罗 “格雷 厄 姆 在 其 《一 百年 后 的 编程 语言 》 一 文中 
想象 了 100 年 后 可 能 会 出 现 的 编程 语言 ， 并 提议 将 他 的 观点 应 用 到 现在 的 编程 语言 中 。 























他 主张 ，100 年 后 的 编程 语言 进化 的 主线 ， 应 该 以 少量 公理 为 基础 的 “拥有 最 小 最 简洁 核 
心 的 语言 ”。 在 现 有 编程 语言 中 ， 最 具有 这 一 特征 的 莫 过 于 他 最 喜欢 的 Lisp 了 。 所 以 说 ， 他 的 
主张 实际 上 就 是 说 ，Lisp 才 是 100 年 后 编程 语言 的 进化 方向 。 











咯 ， 像 我 这 样 的 小 人 物 要 跟 他 叫板 好 像 也 挺 不 自 量力 的 ， 不 过 我 还 是 认为 ， 对 于 未 来 ， 应 
该 基于 从 过 去 到 现在 的 变化 方向 ， 并 在 其 延长 线 上 做 出 预测 。 当 然 ， 将 来 也 许 会 发 生 一 些 无 法 
预料 的 状况 ， 从 而 大 幅 扭转 之 前 的 前 进 方向 ， 不 过 这 样 的 事情 从 定义 来 说 本 来 就 是 无 法 预测 的 ， 
你 非 要 预测 它 ， 本 质 上 也 是 毫 无 意义 的 。 








作为 一 个 编程 语言 御 宅 族 ， 通 过 反观 过 去 半 个 世纪 以 来 编程 语言 的 进化 方向 ， 我 认为 编程 
语言 绝对 不 会 按照 保罗 :格雷 厄 姆 所 说 ,向 着 “小 而 干净 ”的 方向 来 进化 。 现 在 的 编程 语言 ， 
无 论 是 功能 上 还 是 语法 上 都 已 经 不 是 那样 单纯 了 ,虽然 也 曾经 有 人 努力 尝试 将 这 些 语言 变 得 更 
小 更 简单 ， 但 包括 保罗 .格雷 厄 姆 自己 所 设计 的 Arc“ 在 内 ， 都 决 不 能 算是 成 功 的 尝试 。 























在 我 看 来 ， 编 程 语 言 的 进化 动机 ， 不 是 工具 和 语言 本 和 刁 的 简化 ， 而 是 将 通过 这 些 工具 和 语 
言 所 得 到 的 结果 ( 解决 方案 ) 更 简洁 地 表达 出 来 。 近 半 个 世纪 以 来 ,编程 语 言 不 断 提 供 愈 发 高 



































Q@ Erlang 是 由 瑞典 电信 公司 爱立信 ( Ericsson ) 旗下 计算 机 科学 研究 室 所 开发 的 一 种 编程 语言 ， 发 布 于 1987 年 ， 
并 于 1998 年 实现 开源 。 

@ 保罗 。 格 雷 厄 姆 (Paul Graham，1964 一 ” ) 是 美国 风险 投资 家 、 计 算 机 科学 作家 。《 一 百年 后 的 编程 语言 》( The 
Hundred-Year Language ) 一 文 收录 于 保罗 。 格 雷 厄 姆 的 文集 《黑客 与 画家 》 一 书 中 ， 人 民 邮 电 出 版 社 2011 年 4 
月 出 版 ， 阮 一 峰 译 。 

(@) Arc 语言 是 Lisp 的 方言 之 一 ， 由 保罗 。 格 雷 厄 姆 与 罗伯特 。 泰 活 。 莫 里 斯 (Robert Tappan Morris，1965 一 “) 共 
同 设 计 ， 于 2008 年 首次 发 布 。 
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度 的 抽象 化 特性 ， 也 正 是 为 了 达到 这 个 目的 。 因 此 我 们 可 以 很 自然 地 认为 ,这 种 趋势 在 将 来 也 
应 该 会 继续 保持 。 

基于 上 述 观 点 ， 如 果 要 我 来 预测 100 年 后 编程 语言 的 样子 ， 我 认为 应 该 会 是 下 面 三 种 情况 
的 其 中 之 一 : 

(1) 变化 不 大 。 编 程 语言 的 写法 从 20 世纪 80 年 代 开始 就 几乎 没有 什么 进化 , 今后 即便 出 现 
新 的 写法 ， 也 只 是 现 有 写法 的 变形 而 已 。( 从 发 展 上 来 看 ， 是 比较 悲观 的 未 来 ) 


















































(2) 使 用 编程 语言 来 编程 这 个 行为 本 身 不 存在 了 。 人 类 可 以 通过 和 计算 机 对 话 ( 大 概 是 用 自 
然 语 言 ) 来 查询 和 处 理 信息 。( 类 似 《 星 际 迷航 》 中 的 世界 ， 对 于 编程 语言 家 来 说 是 比较 失落 的 
未 来 ) 

(3) 发 明了 采用 更 高 抽象 度 写 法 的 编程 语言 。 这 种 语言 在 现在 很 难 想象 ， 不 过 应 该 是 比 现在 
更 加 强调 What， 而 对 于 如 何 解 决 问题 的 How 部 分 的 细节 ， 则 不 再 需要 人 类 去 过 问 。( 难以 预测 
的 未 来 ) 

当然 ， 上 面 的 预测 也 只 不 过 仅仅 是 预测 而 已 ， 有 可 能 与 未 来 的 实际 情况 大 相 径 庭 ， 或 者 说 ， 
与 实际 大 相 径 庭 的 可 能 性 比较 大 吧 。 不 过 话说 回来 ，100 年 后 我 也 已 经 不 在 这 个 世上 了 ， 这 不 
是 日 操心 嘛 。 






































饼 20 年 后 的 编程 语言 


通过 对 100 年 后 的 预测 ， 我 们 明白 了 “预测 100 年 后 的 事情 是 非常 困难 的 ”"。 想 想 看 ，100 
年 前 连 飞 机 还 没有 民用 化 呢 ，100 年 后 我 已 经 可 以 坐 在 飞机 上 和 舒 舒 服 服 地 写 这 本 书 的 稿子 了 ， 
这 足以 说 明 ， 要 想象 社会 的 变化 是 相当 困难 的 。 














那么 ， 更 近 一 点 的 未 来 又 怎么 样 呢 ? 比如 说 20 年 后 。20 年 前 ， 日 本 刚刚 改 年 号 为 平成 ”， 
现在 和 那个 时 候 相 比 ， 印 象 中 社会 应 该 没有 发 生 非常 极端 的 变化 。 计 算 机 的 性 能 等 方面 确实 有 
了 长 足 的 进步 ， 不 过 发 展 趋势 还 是 连续 的 ， 并 非 无 法 预测 。 对 于 20 年 后 的 未 来 ， 我 想 应 该 可 以 
根据 现在 的 发 展 趋势 来 做 出 判断 。 


个 人 认为 ， 这 么 短 的 时 间 内 ， 编 程 语 言 本 身 应 该 不 会 发 生 多 大 的 变化 。 实 际 上 ， 现 在 使 用 
的 很 多 语言 ， 在 20 年 前 就 已 经 存在 的 。 因 此 我 预计 ，20 年 后 的 语言 ， 应 该 是 在 分 布 处 理 (多 










































































Q9 除了 公元 纪年 外 ， 日 本 人 还 普遍 习惯 使 用 年 号 纪年 。 和 中 国 封建 王朝 时 期 一 样 ， 年 号 一 般 是 随 天 皇 的 更 换 而 进 
行 更 迭 。1989 年 ， 明 仁 天 皇 即位 ， 改 年 号 为 平成 ,因此 2012 年 是 平成 24 年 。 在 平成 之 前 的 上 一 个 年 号 是 昭和 。 
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台 计 算 机 协作 处 理 ) 和 并 行 处 理 〈 多 个 CPU 协作 处 理 ) 功能 上 进行 强化 ， 使 得 开发 者 不 需要 特 
别 花 心思 就 能 够 使 用 这 些 功 能 。 




















之 所 以 要 关注 分 布 处 理 和 并 行 处 理 ， 是 因为 今后 个 人 也 可 以 通过 云 计算 的 形式 使 用 到 比 现 
在 更 多 的 计算 机 ， 而 随 着 每 台 计 算 机 的 CPU 多 核 化 ， 就 相当 于 安装 了 更 多 的 CPU， 这 些 情形 都 
是 很 容易 想象 的 。 








不 过 ， 我 认为 现在 的 线程 、RPC ( Remote Procedure Call， 远 程 过 程 调用 ) 等 显 式 地 使 用 分 
布 处 理 和 并 行 处 理 的 形式 ， 早 晚会 遇 到 瓶颈 。 当 核心 数量 超过 数 千 个 的 时 候 ， 显 式 指定 就 变 得 
毫 无 意义 了 ， 调 试 起 来 也 会 变 得 非常 痛苦 。 我 期 竺 在 20 年 后 ， 能 够 出 现 突破 这 种 局 限 的 技术 ， 
即 无 需 显 式 操作 就 可 以 实现 分 布 处 理 和 并 行 处 理 。 


























久 学 生 们 的 想 和 


几 年 前 ， 我 兽 经 在 母校 筑波 大 学 开展 过 一 次 关于 编程 语言 的 集中 讲座 。 在 讲座 中 我 给 学 生 
们 出 了 “想象 一 下 20 年 后 的 编程 语言 ”这 样 一 个 题目 ， 并 在 讲座 最 后 一 天 提交 报告 。 很 有 意思 
的 是 ， 大 多 数学 生 并 没有 做 出 我 上 面 所 说 的 关于 分 布 处 理 和 并 行 处 理 之 类 的 技术 性 预测 ， 而 
提出 了 诸如 “让 编程 变 得 更 简单 的 语言 、“ 希 望 用 自然 语言 来 控制 计算 机 ”之 类 的 想象 。 通 过 
这 些 答案 ,似乎 可 以 看 出 他 们 平常 为 了 完成 编程 作业 而 被 折磨 得 何等 痛 苗 。 





























并 



































不 过 ， 这 样 的 答案 中 ,也许 也 蕴含 着 真理 。 近 年 来 ， 编 程 语言 似乎 越 来 越 难 以 脱离 IDE 
( Integrated Development Environment， 集 成 开发 环境 ) 而 单独 拿 出 来 说 了 。 对 于 Ruby 也 总 有 人 
问 “ 没 有 IDE 吗 ? ”之 类 的 问题 ， 当 然 ， 好 消息 是 最 近 Eclipse 和 NetBeans 已 经 支持 Ruby 了 。 








有 点 跑题 了 。 总 之 ,未 来 的 编程 语言 可 能 不 会 像 过 去 的 编程 语言 那样 ,让 语言 本 身 单 独 存在 ， 
而 是 和 编辑 器 .调试 器 .性 能 分 析 器 等 开发 工具 相互 配合 ,以 达到 提高 整体 生产 效率 的 目的 。 话 说 ， 
那 不 就 是 Smalltalk 吗 ? 




















咯 ， 历 史 是 否 会 重演 呢 ? 


























Q@ Smalltalk 正 是 一 种 考虑 了 “与 编辑 器 、 调 试 器 、 性 能 分 析 器 等 开发 工具 相互 配合 ”而 设计 的 语言 。 过 去 它 并 不 
能 算是 成 功 的 , 但 随 着 技术 的 进步 ,其 理念 获得 了 越 来 越 多 的 用 武之 地 , 或 许 真能 卷土重来 也 未 可 知 。( 原 书 注 ) 
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下 面 ， 我 们 来 介绍 一 些 值 得 关注 的 编程 语言 功能 。 首 先 我 们 从 DSL ( Domain Specific 
Language， 特 定 领域 语言 ) 开始 说 起 。 





所 谓 DSL, 是 指 利用 为 特定 领域 ( Domain ) 所 专门 设计 的 词汇 和 语法 , 简化 程序 设计 过 程 ， 
提高 生产 效率 的 技术 ,同时 也 让 非 编 程 领域 专家 的 人 直接 描述 逻辑 成 为 可 能 。DSL 的 优点 是 ， 
可 以 直接 使 用 其 对 象 领域 中 的 概念 ， 集 中 描述 “ 想 要 做 到 什么 ”( What ) 的 部 分 ， 而 不 必 对 “如 
何 做 到 ”( How ) 进行 描述 。 



































例如 ， 有 一 个 名 为 rake 的 编译 工具 ， 它 是 用 Ruby 编 。 TU 
写 的 。 这 个 工具 的 功能 跟 make 差不多 ， 它 会 分 析 文 件 。 task :test do 

的 依赖 关系 ， 并 自动 执行 程序 的 编译 、 连 接 等 操作 。 其 。 enh” test/unittest.rb” 
中 描述 依赖 关系 的 Rakefile 就 是 使 用 了 Ruby 语法 的 一 种 ”图 1 Rakefile 示例 
DSL。 图 1 就 是 Rakefile 的 一 个 简单 的 例子 。 























这 个 例子 表达 了 下 面 两 个 意思 : 


(1) 默认 任务 为 test 
(2) test 的 内 容 是 执行 test/unittest.rb 


启动 rake 命令 的 格式 是 : 
rake 任务 
如 果 这 里 的 任务 省 略 的 话 ， 则 执行 default 任务 。 





























在 Rakefile 对 于 依赖 关系 的 描述 中 只 是 指定 了 task， 而 对 于 内 部 数据 结构 是 怎样 的 ， 以 及 
维持 依赖 关系 要 如 何 实现 等 等 具体 问题 都 无 需 涉及 ， 因 为 具体 的 实现 方式 ， 与 描述 依赖 关系 这 
个 对 象 领域 ( Domain ) 是 无 关 的 。 








DSL 这 个 对 特定 目的 小 规模 语言 的 称呼 ， 是 最 近 才 出 现 的 比较 新 的 叫 法 ,但 这 种 方法 本 号 
却 并 不 是 什么 稀罕 的 东西 ， 尤 其 是 UNIX 社区 中 就 诞生 了 许多 用 来 解释 像 这 样 的 “专用 语言 ” 
的 工具 。 
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其 中 ， 以 行为 单位 进行 文本 处 理 的 脚本 语言 awk 算是 比较 有 名 的 ， 除 此 之 外 ，UNIX 中 还 
开发 了 很 多 “迷你 语言 ”， 比 如 用 来 描述 依赖 关系 的 Makefile 和 用 来 读 取 它 的 make 命令 、 以 行 
为 单位 进行 数据 流 编辑 的 sed 命令 、 用 来 描述 文档 中 嵌入 图 像 的 pic 命令 ， 用 来 生成 表格 的 tbl 
命令 等 等 。 此 外 ， 为 了 对 这 些 迷你 语言 的 编写 提供 支持 ，UNIX 中 还 提供 了 语法 分 析 器 生成 工 
具 yacc， 以 及 词法 分 析 需 生成 工具 lex， 而 yacc 和 lex 本身 也 拥有 自己 的 迷你 语言 。 
























































这 些 迷 你 语言 ， 几 乎 都 是 专用 于 特定 用 途 的 ， 大 多 数 情况 下 无 法 完成 复杂 的 工作 ， 但 它们 
都 能 够 比 简单 的 配置 文件 描述 更 多 的 内 容 ， 并 为 命令 的 处 理 带 来 了 更 大 的 灵活 性 ， 因 此 和 DSL 
在 本 质 上 是 相同 的 。 





饼 外 部 DSL 





像 以 这 些 迷 你 语言 为 代表 的 ， 由 专用 的 语言 引擎 来 实现 的 DSL， 称 为 外 部 DSL。UNIX 的 
迷你 语言 文化 是 先 于 DSL 出 现 的 ， 但 并 非 只 有 UNIX 才 提 供 外 部 DSL。 








在 Java 编写 的 应 用 程序 中 ， 大 量 使 用 了 由 可 扩展 标记 语言 (XML ) 编写 的 配置 文件 。 这 种 
XML 配置 文件 也 是 外 部 DSL 的 一 种 形式 。 此 外 ， 数 据 库 访问 所 使 用 的 SQL ( Structured Query 
Language， 结 构 化 查询 语言 ) 也 是 一 种 典型 的 外 部 DSL。 









































外 部 DSL 的 优点 ， 在 于 它 是 独立 于 程序 开发 语言 的 。 对 于 某 个 领域 进行 操作 的 程序 ， 不 
定 是 用 同一 种 语言 来 编写 的 。 例 如 ， 用 来 对 数据 库 进 行 操作 的 程序 ， 有 时 可 以 用 Ruby 来 
开发 ， 有 时 也 可 以 用 PHP 或 者 Java 来 开发 。 由 于 外 部 DSL 是 独立 于 程序 开发 语言 的 ， 因 此 
可 以 实现 路 语言 共享 。 只 要 学 会 了 SQL， 就 可 以 在 不 同 的 语言 中 ， 用 相同 的 SQL 来 进行 数 
据 库 操作 。 


正则 表达 式 的 使 用 方法 也 差不多 。 正 则 表达 式 是 用 来 描述 字符 串 模板 的 一 种 外 部 DSL， 在 
Ruby、Perl、 PHP 、Python 等 很 多 语言 中 都 可 以 使 用 , 其 语法 在 不 同 的 语言 中 基本 上 都 是 通用 的 "。 
这 样 的 好 处 是 ， 在 不 同 的 语言 中 都 可 以 使 用 字符 串 模 板 匹 配 这 一 通用 功能 。 



























































此 外 ， 外 部 DSL 实际 上 是 全 新 设计 的 语言 和 语言 引擎 ， 因 此 可 以 根据 它 的 目的 进行 自由 的 
设计 ,不 必 被 特定 的 执行 模块 和 现 有 语言 的 语法 所 左右 。 由 于 自由 度 很 高 ， 在 特定 领域 中 能 够 
大 幅度 提高 生产 效率 。 

















也 许 大 家 认为 设计 和 实现 一 种 语言 是 非常 辛苦 的 工作 ， 但 如 果 规 模 不 是 很 大 的 话 ， 实 际 上 








@ 实际 上 在 不 同 引擎 中 ， 正 则 表达 式 的 功能 和 语法 也 有 细微 差别 。( 原 书 注 ) 
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也 没有 那么 难 。 以 名 著 《UNIX 编程 环境 》" 为 首 的 许多 书籍 中 , 都 以 迷你 语言 的 制作 作为 例题 ， 
其 核心 部 分 只 要 几 页 的 代码 就 可 以 完成 。 























然而 ， 高 度 自由 的 设计 也 是 一 把 双 刃 剑 ， 这 意味 着 程序 员 为 了 使 用 DSL 必须 学 习 一 门 全 新 
的 语言 。 像 SQL 这 样 作为 数据 库 访问 的 通用 方式 已 经 实现 普及 和 标准 化 的 语言 还 好 ， 如 果 为 了 
每 一 种 目的 都 要 从 零 开始 学 习 一 门 完 全 不 同 的 语言 ， 这 样 的 莹 昔 可 不 是 闹 着 玩 的 。 


依 内 部 DSL 
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和 外 部 DSL 相对 的 自然 就 是 内 部 DSL 了。 外 部 DSL 是 从 UNIX 中 脱胎 发 展 而 来 的 ， 而 内 
部 DSL 则 是 发 源 于 Lisp 和 Smalltalk 的 文化 之 中 。 




















内 部 DSL 并 不 是 创造 一 种 新 的 语言 ， 而 是 在 现 有 语言 中 实现 DSL， 而 作为 DSL 基础 的 这 
种 现 有 语言 ， 称 为 宿主 语言 。 从 原理 上 说 ， 宿 主语 言 可 以 是 任何 编程 语言 ， 不 过 还 是 有 适合 不 
适合 之 分 。Lisp 、Smalltalk 、Ruby 这 些 语言 适合 作为 DSL 的 宿主 语言 ， 因 此 在 这 些 语言 的 社区 
中 经 常 使 用 内 部 DSL。 

内 部 DSL 的 优点 和 缺点 和 外 部 DSL 正好 相反 。 也 就 是 说 ， 内 部 DSL 是 “ 借 宿 ”在 宿主 语 
言 中 的 , 它 借 用 了 宿主 语言 的 语法 ,因此 程序 员 无 需 学 习 一 种 新 的 语言 。 在 理解 内 部 DSL 含义 时 ， 
宿主 语言 的 常识 依然 有 效 ， 而 学 习 新 语言 时 ， 宿 主语 言 的 知识 也 会 成 为 不 错 的 航标 。 
































之 前 我 们 举 过 rake 命令 的 Rakefile 这 个 例子 , 这 就 是 一 种 内 部 DSL。 图 1 中 显示 的 Rakefile 
代码 ， 是 用 来 为 rake 命令 描述 编译 规则 的 DSL 代码 ， 但 同时 它 也 是 一 段 Ruby 程序 。 











内 部 DSL 还 有 其 他 一 些 优点 。 当 用 DSL 编写 复杂 的 逻辑 时 ,可 以 使 用 过 程 定义 .条件 分 支 、 
循环 等 作为 通用 语言 的 宿主 语言 所 具备 的 全 部 功能 。 从 某 种 意义 上 说 ， 它 就 是 万 能 的 。 


此 外 ,“ 寄 生 ” 在 宿主 语言 上 面 ， 就 意味 着 DSL 的 实现 会 相对 容易 。 一 种 迷你 语言 的 实现 
再 怎么 简单 ,和 在 答 主 语言 基础 上 增加 一 些 功 能 就 能 够 实现 的 内 部 DSL 相 比 ,都 只 能 甘 拜 了。 
































说 到 内 部 DSL 的 缺点 ， 由 于 DSL 的 语法 被 限定 在 宿主 语言 能 够 描述 的 范围 内 ， 因 此 自由 
度 比较 低 。 不 过 ,自由 度 低 换 来 了 较 好 的 易 读 性 ， 何 况 像 Lisp 这 样 具备 高 性 能 宏 功 能 的 语言 中 ， 
即便 是 内 部 DSL ( 以 一 定 的 易 读 性 为 代价 ) 也 可 以 实现 相当 高 的 自由 度 。 


我 的 个 人 观点 是 ， 从 易 读 性 和 实现 的 容易 性 来 看 ， 内 部 DSL 具备 更 多 的 优势 。 





QD《UNIX 编程 环境 》( The Unix Programming Environment )，Brain W. Kernighan 和 Rob Pike 著 ，1984 年 出 版 ， 两 
位 作者 来 自 贝尔 实验 室 , 这 本 书 是 关于 Unix 操作 系统 的 早期 著名 著作 。 中 译本 由 机 械 工业 出 版 社 于 1999 年 发 行 ， 
陈 向 群 等 译 。 
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人 DSL 的 优势 





那么 DSL 有 哪些 优势 呢 ? 为 什么 DSL 近年 来 如 此 备 受 关注 呢 ? 


这 是 因为 DSL 在 几 个 方面 上 可 以 说 掌握 了 提高 生产 效率 的 关键 。DSL 拥有 为 特定 领域 所 设 
计 的 词汇 ， 可 以 在 高 级 层面 上 编写 程序 。 由 于 不 需要 编写 多 余 的 部 分 ， 因 此 就 节约 了 程序 开发 
的 时 间 。 





























此 外 ,使 用 DSL 可 以 让 程序 在 整体 上 以 更 简洁 的 形式 进行 表达 ， 这 意味 着 无 论 是 写 程序 还 是 
读 程 序 的 成 本 都 降低 了 ， 同 时 也 意味 着 对 于 非 编程 专家 的 一 般 人 来 说 ， 编 程 的 大 门 正 向 他 们 敞开 。 


很 多 人 觉得 编程 很 难 ， 但 如 果 自 己 的 专业 领域 中 有 适用 的 DSL 的 话 ， 情 况 就 不 同 了 。 如 果 
可 以 将 想 让 计算 机 完成 的 任务 直接 描述 出 来 ， 也 许 就 可 以 减少 与 程序 员 交 流 的 成 本 ， 从 而 实现 
生产 效率 的 提高 。 这 才 是 DSL 备 受 关注 的 一 个 最 大 的 理由 。 


仔细 想 想 就 会 发 现 ， 不 涉及 对 象 领域 的 内 部 细节 ， 而 是 在 高 级 层面 上 进行 描述 ， 这 就 是 近 


半 个 世纪 以 来 编程 语言 进化 的 方向 一 一 抽象 化 。 也 就 是 说 ，DSL， 尤 其 是 内 部 DSL， 也 许 就 是 
由 抽象 化 的 不 断 推 进 所 引领 的 编程 语言 未 来 发 展 的 方向 之 一 吧 。 












































仿 DSL 的 定义 






































谈 到 DSL， 大 家 总 是 热衷 于 讨论 到 底 怎样 算是 DSL。 关 于 什么 是 DSL， 什么 不 是 DSL， 并 
没有 明确 的 定义 和 标准 。 











有 一 种 观点 认为 ， 像 “是 否 具 备 仅 用 于 特定 用 途 的 功能 ”"、“ 设计 者 ) 自己 是 否 将 其 命名 为 
一 种 DSL” 等 可 以 作为 判断 的 标准 ， 但 实际 上 这 些 标 准 也 是 非常 模棱两可 的 。 


























尽管 如 此 ， 考 虑 到 DSL 实际 上 是 编程 语言 抽象 化 的 延伸 ， 那 么 问题 就 不 应 该 是 什么 是 
DSL、 什 么 不 是 DSL，DSL 应 该 是 将 面向 特定 领域 的 API 设计 成 优秀 的 DSL 这 样 一 个 设计 的 
过 程 。 

















据说 ， 在 诞生 了 UNIX 的 AT&T 贝尔 实验 室 " 中 有 一 名 名言 : 库 设 计 就 是 语言 设计 ( Library 
design is language design )。 我 们 在 思考 编程 语言 的 时 候 ， 大 多 仅 强 调 语法 ， 但 如 果 脱 离 了 相当 
于 词汇 的 库 、 类 和 方法 ， 语 言 也 就 无 从 思考 。 





























Q@ 贝尔 实验 室 ( Bell Laboratories ) 是 一 个 以 电信 相关 研究 起 家 的 人 研究 开发 机 构 ， 由 AT&T 和 Western Electric 共同 
出 资 创立 于 1925 年 ， 于 1996 年 脱离 AT&T， 目 前 属于 阿尔 卡特 朗讯 (Alcatel-Lucent ) 公司 旗下 。 贝 尔 实验 室 
在 计算 机 领域 的 重大 发 明 包括 UNIX 操作 系统 和 C 语言 等 ， 其 他 领域 的 重大 发 明 包括 晶体 管 、 激 光 、CCD 等 ， 
许多 成 果 都 获得 过 诺 贝 尔 奖 。 
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也 就 是 说 ，API ( Application Programming Interface， 应 用 程序 编程 接口 ) 也 是 构成 编程 语 
言 的 一 个 重要 要 素 。 向 一 种 语言 添加 库 ， 也 就 相当 于 在 设计 一 种 “新 增 了 一 些 词汇 的 规模 更 大 
一 点 儿 的 语言 ”。 我 们 可 以 通过 “编程 达 人 ”大 卫 ' 托马斯 ?的 这 句 话 理解 这 一 过 程 : 























Programmineg is a process of designing DSL for your own application. 


( 编程 就 是 为 自己 的 应 用 程序 设计 DSL 的 过 程 ) 








应 用 程序 开发 ， 可 以 理解 为 是 将 库 等 组 件 设计 成 针对 该 应 用 程序 对 象 领域 的 DSL， 最 后 青 
行 整合 的 过 程 。 这 样 编写 出 来 的 应 用 程序 ， 其 代码 的 抽象 度 高 ， 应 对 未 来 修改 的 能 力 强 ， 一 
是 一 个 不 错 的 应 用 程序 。 











进 
定 








因此 ，DSL 并 不 仅仅 是 一 种 技术 ， 而 是 应 用 程序 开发 的 重要 设计 原理 和 原则 之 一 ， 可 以 说 
适用 于 任何 软件 的 开发 。 在 设计 API 时 ， 如 果 能 像 “ 设 计 一 种 新 的 DSL” 一 样 进行 设计 的 话 ， 
感触 应 该 会 变 得 不 同 吧 。 


饼 适 合 内 部 DSL 的 语言 


40 





正如 刚才 所 说 的 ,在 UNIX 文化 中 ,由 若干 单一 目的 的 小 工具 所 组 成 的 “工具 箱 系统 "是 主流 ， 
Linux 也 继承 了 这 一 点 。UNIX 中 的 各 种 迷你 语言 ， 作 为 组 成 工具 箱 的 零 部 件 ， 同 时 也 作为 为 特 
定 目的 专用 的 外 部 DSL， 不 断 发 展 壮大 起 来 。 





























不 过 ， 在 现代 UNIX 文化 也 受到 了 很 多 来 自 外 部 的 影响 。 例 如 ， 现 在 典型 的 UNIX 文本 编 
辑 咒 Emacs， 其 起 源 与 其 说 是 来 自 UNIX， 不 如 说 是 来 自 美 国 麻 省 理工 学 院 (MIT ) 的 Lisp 文 
化 。 它 的 开发 者 理 查 德 ， 斯 托 曼 ?本 来 就 是 一 位 MIT 出 身 的 Lisp 黑客 ， 因 此 这 也 是 理所当然 的 
吧 。 此 外 ， 从 Perl 到 Ruby 的 这 些 脚本 语言 中 ， 并 不 是 采用 小 工具 组 合 起 来 的 方式 ， 而 是 提供 
多 功能 可 编程 的 工具 ， 从 这 一 点 上 看 ， 也 是 受到 了 Lisp 文化 的 影响 。 近 年 来 内 部 DSL 的 备 受 关 
注 ， 和 这 个 倾向 也 不 能 说 没有 关联 。 





























那么 , 什么 样 的 语言 适合 用 作 内 部 DSL 的 宿主 语言 呢 ? 虽然 任何 语言 都 可 以 成 为 宿主 语言 ， 
但 像 Lisp 、Smalltalk、Ruby 这 样 被 认为 适合 DSL 的 语言 ， 都 拥有 一 些 共同 的 特征 。 





首先 是 简洁 。 由 于 DSL 本 来 就 是 为 了 将 针对 特定 目的 处 理 用 高 级 的 、 简 洁 的 方式 进行 描述 ， 











Q@ 大 卫 。 托 马 斯 ( Dave Thomas ) 是 一 位 程序 员 、 作 家 、 出 版 家 ， 若 有 Programming Ruby 等 书 。 
@ 理 查 德 。 斯 托 曼 ( Richard Stallman，1953 一 ”) 是 一 位 著名 的 黑客 ， 自 由 软件 运动 领导 者 ，GNU 计划 和 自由 软 
件 基金 会 创始 人 ， 他 所 编写 的 GNU 通用 公共 许可 证 ( GNU GPL ) 是 世界 上 最 广 为 采用 的 自由 软件 许可 证 。 
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因此 简洁 的 描述 方式 才 是 最 本 质 的 。 从 这 个 意义 上 来 讲 ,语言 简洁 是 作为 DSL 宿主 语言 不 可 或 
缺 的 要 素 。Lisp 和 Ruby 等 语言 中 ， 无 需 在 程序 中 声明 数据 类 型 ， 编 译 器 的 “规矩 ”也 比较 少 ， 
因此 能 够 让 程序 变 得 简洁 。 











作为 宿主 语言 的 男 一 个 重要 特征 就 是 灵活 性 。 在 DSL 中 ， 开 发 者 会 通过 高 度 抽象 化 的 代码 
来 集中 描述 What， 而 不 是 How， 因 此 作为 对 抽象 化 的 支持 ,元 编程 等 功能 也 最 好 比较 充实 。 











此 外 ，Lisp 具备 宏 (Macro ) 功能 ， 只 要 遵循 “用 括号 进行 表达 ”的 S 表达 式 "语法 ， 就 可 
以 实现 相当 自由 的 表达 。 因 此 可 以 说 Lisp 语言 本 身 就 是 一 种 可 被 编程 的 语言 。 





另 一 方面 ，Ruby 中 的 代码 块 (Block ) 功能 可 以 实现 控制 结构 。 代 码 块 虽然 不 像 Lisp 的 宏 
那样 万 能 ， 但 用 来 实现 内 部 DSL 还 是 足够 了 。 























让 我 们 再 回头 看 看 图 1 中 Rakefile 的 示例 。 在 Rakefile 中 定义 了 一 个 名 为 task 的 方法 ， 任 
务 的 名 称 则 作为 参数 通过 符号 (Symbol ) 来 指定 。 当 这 里 定义 的 test 任务 被 执行 时 ， 代 码 块 就 
会 被 求 值 。 像 这 样 ， 在 Ruby 中 通过 使 用 代码 块 ， 就 可 以 表达 一 种 控制 结构 。 






































Rakefile 的 代码 之 所 以 看 上 去 很 简洁 ， 是 因为 Ruby 的 语法 就 是 以 这 样 的 宗旨 进行 设计 的 。 
相 比 语法 的 单纯 性 来 说 ，Ruby 更 加 重视 程序 的 可 读 性 ， 其 语法 也 是 以 此 为 先决 条 件 而 确定 的 。 








例如 ， 调 用 方法 时 参数 周围 的 括号 是 可 以 省 略 的 ， 还 可 以 通过 代码 块 将 整个 一 块 代码 作为 
参数 传递 给 一 个 方法 。 如 果 说 Ruby 的 语法 追 ssgerault > [test) 
求 的 是 没有 任何 宛 余 性 的 “简单 ”的 话 , 那么 task(:test，&lambda(){ 
1 的 Rakefile 代码 就 会 变 成 图 2 这 个 样子 。 0 
这 样 的 语法 虽说 非常 简单 ， 但 绝对 算 不 上 是 易 ” 四》 Rakefie 示人 
读 和 易 写 的 。 


























那么 ， 如 果 是 一 种 不 具备 Lisp 和 Ruby 这 样 简洁 性 和 灵活 性 的 语言 ， 例 如 Java， 是 不 是 就 
不 可 能 用 作 内 部 DSL 呢 ? 的 确 ， 像 Java 这 样 的 语言 ， 由 于 必须 要 指定 数据 类 型 ， 代 码 容易 变 得 
非常 繁杂 ， 而 且 语 法 的 自由 度 也 不 高 ， 要 实现 像 Lisp 和 Ruby 一样 的 内 部 DSL 是 非常 困难 的 。 
然而 ， 以 代码 重 构 而 闻名 的 马丁 : 福 勒 >? 则 提出 ， 通 过 “流畅 接口 ”( Fluent interface ) 的 方式 ， 像 
Java 这 样 的 语言 是 不 是 也 能 够 实现 内 部 DSL 一 样 的 功能 呢 ?” 图 3 就 是 他 所 展示 的 流畅 接口 的 示例 。 

















QS 表达 式 ( S-expression ) 是 符号 化 表达 式 ( Symbolic Expression ) 的 简称 ， 是 Lisp 中 用 于 表达 舱 套 ( 层次 状 ) 
数据 的 方式 。 
@) 马丁。 福 勒 (Martin Fowler，1963 一 ”) 是 一 位 软件 开发 方面 的 著名 作家 ， 这 里 所 说 的 “代码 重 构 ” 是 指 他 
在 1999 年 与 肯特 。 贝 克 等 人 合作 编写 的 《 重 构 : 改善 既 有 代码 的 设计 》( Refactoring: Improving the Desien of 
Existing Code ) 一 书 。 
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3 中 的 代码 定义 了 一 张 顾客 ( Customer ) 
的 订单 。 在 订单 中 ,包含 了 商品 及 其 数量 的 订 
购 明 细 。 某 些 情况 下 ， 为 了 避免 整 张 订单 延迟 
先 将 剩 下 
有 货 的 货品 发 出 来 ， 因 此 在 这 里 的 明细 中 ， 有 


货 ， 可 以 从 订单 中 去 掉 某 些 货 品 ， 


些 货品 被 定义 为 “赶不上 货 期 的 话 可 以 跳 过 ” 


整 张 订单 的 状态 被 设 定 为 “加 急 "。 图 3 整个 


代码 的 含义 是 定义 了 如 下 这 样 一 张 订单 : 














口 TAL, 6 个 

口 HPK, 5 个 (可 跳 过 ) 

口 LGV, 3 个 

口 加 急 

流畅 接口 中 运用 了 方法 链 priva 
(Method chain )， 作 为 Java 来 > 
说 这 种 表达 方式 是 前 所 未 有 的 简 ee 
洁 。 如 果 用 以 前 “更 像 Java 的 风 0 
格 ” 来 表达 的 话 ， 就 会 变 成 图 4 半 
这 样 。 0 

0 


简洁 性 和 易 读 性 的 区 别 一 目 。 find 


了 然 。 虽然 流畅 接口 在 Java 社区 1 
还 没有 普及 ， 不 过 这 种 设计 思路 
在 今后 是 非常 值得 期 竺 的。 























到 4 Java 标准 风格 的 接 


private void makeOrder(Customer 
customer) { 
customer.newOrder() 
.with(6, "TAL") 
swith(ee PK OSIKippable 二 
NE 
Sp om Cy Rosh os 
} 


图 3 用 Java 编写 的 流畅 接口 ( fluent interface ) 


Le] 

















te void makeOrder(Customer customer) { 
rder ol = new Order(); 
ustomer.addOrder(o01); 

rderLine linel = new OrderLine(6, 
A) DR 

1l1.addLine(linel); 

rderLine line2?2 = new OrderLine(5, 
J he 

1.addLine(line2); 

rderLine line3 = new OrderLine(3, 
GV DD 


poxluete 


produete 


proauwete 


ol.addLine(line3); 


ine2.setSkippable(true); 





ol.setRush(true); 











加 














仿 外 部 DSL 实例 
内 部 DSL 代表 了 编程 语言 进化 的 一 种 形态 ， 作 为 编程 爱好 者 ， 我 自然 对 其 兴趣 颇 深 ,但 在 
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这 里 ， 我 还 想 再 谈 谈 外 部 DSL。 

















刚才 已 经 讲 过 ， 外 部 DSL 就 是 拥有 专 月 
也 有 各 自 不 同 的 实现 水 平 。 





日 引擎 的 一 种 独立 的 特定 领域 语言 ， 不 过 外 部 DSL 





最 简单 的 一 种 莫 过 于 配置 文件 和 数据 文件 了 吧 。 例 如 YAML、JSON 等 语言 ， 就 是 为 了 “将 


对 象 ( 用 对 人 类 易 读 的 形式 ) 描述 出 来 ”这 一 特定 目的 而 设计 的 外 部 DSL ( 


图 S )。 
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而 更 复杂 的 一 些 DSL， 虽 然 也 是 为 特定 目的 而 [ 























设计 ， 但 却 可 以 编写 出 描述 任意 算法 的 程序 。 例 如 (和 eo 
、 二 name" : "松本 行 弘 "， 
用 于 文本 处 理 的 awk 等 ， 就 属于 这 种 水 平 。awk 程 "company": "NaCl", 
We | 这 证 myj de™: ™ 轩 力 到， 
序 的 基本 结构 是 从 文件 中 以 行为 单位 读 取 字符 串 ， 0 
同时 它 具 备 每 读 取 一 行 之 后 将 字符 串 分 制 成 字段 等 "tel": "0852-28-XXXX" 











等 这 样 的 文本 处 理 专用 功能 。 这 些 功能 明显 是 属于 。 “] ) 

DSL， 但 另 一 方面 ， 它 也 并 不 是 不 能 编写 出 文本 处 。 

理 范 围 以 外 的 程序 。 再 举 一 个 例子 ， 用 于 向 打印 机 ”图 5 外 部 DSL JSON 中 对 数据 的 表达 方式 
描述 页 面 的 DSL PostScript， 也 是 一 种 基于 逆 波 兰 记 

法 ?的 图 灵 完全 ( 拥有 完整 计算 能 力 的 ) 语言 。 


















































另外 还 有 一 种 比较 特殊 的 ， 虽然 它 本 身 是 一 种 通用 语言 ， 叫 做 DSL 并 不 十 分 合适 ， 但 这 
种 语言 却 与 特定 计算 模型 之 间 拥 有 很 强 的 关联 性 ， 也 就 具备 了 很 强 的 类 似 DSL 的 性 质 。 例 如 
Prolog， 它 是 一 种 以 一 阶 谓词 逻辑 为 基础 的 语言 。Prolog 可 以 被 认为 是 面向 谓词 逻辑 这 一 特定 领 
域 的 DSL， 但 将 谓词 逻辑 这 个 适用 范围 称 作 “特定 领域 ”似乎 未 免 太 宽泛 了 ， 因 此 一 般 情况 下 
人 们 也 不 会 将 Prolog 称 作 DSL ,同样 地 ,与 用 于 并 行 计算 的 Actor 模型 ?密切 相关 的 Erlang 等 语言 ， 
虽然 是 一 种 通用 语言 ， 但 它 同时 也 有 具备 “面向 并 发 编程 领域 的 DSL” 这 一 性 质 。 







































































让 我 觉得 比较 有 意思 的 是 Java 中 所 使 用 的 XML。 由 于 Java 中 默认 内 置 了 用 于 解析 XML 
的 库 ， 因 此 如 果 用 XML 来 编写 DSL 的 话 ， 就 可 以 很 容易 地 被 程序 读 取 。 这 样 一 来 ， 基 本 上 就 
可 以 省 却 为 DSL 开发 语言 引擎 的 步 又 了 。 




















通过 这 样 的 方式 ， 我 们 可 以 用 XML 这 一 通用 的 、 不 被 特定 目的 限制 的 语法 ， 很 容易 地 创造 
新 的 外 部 DSL ,我 认为 这 是 一 种 非常 高 效 的 方式 。 只 不 过 ,XML 文件 的 内 容 是 通过 标签 来 描述 的 ， 
看 起 来 十 分 元 长 ， 无 论 是 阅读 还 是 编写 ， 对 用 户 来 说 都 不 是 很 友好 ， 这 一 点 算是 一 个 遗憾 吧 。 














I 





























仿 DSL 设计 的 构成 要 素 








经 在 诸多 Ruby 相关 活动 中 发 表 过 演讲 的 著名 Rubyist 
种 优秀 的 ( 内 部 ) DSL 的 要 素 包 括 下 列 5 种 : 


Glenn Vanderburg 认为 ， 构 成 一 











Q@ 道 波兰 记 法 ( Reverse Polish notation ) 是 一 个 将 操作 符 置 于 操作 数 后 面 的 “后 级 式 记 法 ”， 如 “3 + 4” 用 这 种 记 
法 要 写成 “34+”。 这 种 记 法 的 好 处 是 不 必 使 用 括号 来 表示 运算 顺序 ， 并 且 对 于 计算 机 来 说 更 容易 实现 。 

@) Actor 模型 ( Actor model ) 是 一 种 用 于 并 行 计算 的 模型 ， 其 中 每 个 Actor 是 并 行 计 算 的 基本 单元 ， 它 可 以 和 其 他 
Actor 进行 消息 通信 ， 也 可 以 创建 更 多 的 Actor。 
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口 上下文 ( Context ) 
口语 句 (Sentence ) 

口 单位 ( Unit ) 

口 词汇 (Vocabulary ) 

口 层次 结构 ( Hierarchy ) 





其 中 的 上 下 文 , 用 来 针对 DSL 中 每 个 单独 的 语句 ,规定 其 所 拥有 的 含义 。 也 许 有 人 认为 :用 
参数 的 方式 进行 显 式 指定 不 就 好 了 吗 ?”” 不 过 大 家 别 忘 了 ，DSL 的 守则 是 进行 简洁 的 描述 ， 如 
果 每 次 都 通过 参数 来 反复 指定 上 下 文 的 话 ， 程 序 必定 会 变 得 见长 。 








请 看 图 6 中 的 程序 。 这 是 用 描述 测试 


elass User Teste < est :Unniest ase 








用 的 库 shoulda 来 编写 的 测试 程序 ， 它 也 是 context "a User instance" do 
setup do 
一 种 以 Ruby 为 基础 的 内 部 DSL。 @user = User.find(:first) 
end 


在 图 6 的 例子 中 , context 方 法 和 | 
should 方法 就 定义 了 上 下 文 。 顾名思义 ， | 0 
context 方法 的 作用 就 是 定义 上 下 文 ， 它 表 a 
示 这 个 测试 项 目的 一 个 大 的 框架 ， 而 上 下 end 
文 的 范围 是 通过 指派 给 context 方法 的 代码 。"4 
块 来 定义 的 。 因 此 : 到 6 ”shoulda 编写 的 测试 程序 












































context "a User instance" do 


就 表示 “对 a User instance 这 个 上 下 文 的 测试 进行 定义 ”的 意思 。 




















should 方法 则 定义 了 “需要 满足 某 个 条 件 ” 这 样 一 个 测试 。 当 指派 给 should 方法 的 代码 块 
所 描述 的 测试 成 功 时 ， 则 视 为 满足 该 测试 的 条 件 。should 方法 所 定义 的 测试 ， 和 外 部 的 上 下 文 
结合 起 来 ， 就 定义 了 “a User instance should return its full name”( 用 户 实 例 应 当 返 回 其 全 名 ) 这 
一 软件 的 行为 。 





这 样 的 方式 与 其 说 是 测试 ， 不 如 说 是 定义 了 软件 所 应 该 具有 的 行为 (Behavior )， 因 此 更 
多 的 情况 下 人 们 不 会 将 其 称 为 测试 ， 而 是 称 为 规格 (Spec )。 此 外 ， 在 软件 开发 之 前 就 设计 
好 规格 的 开发 手法 ,通常 不 是 叫做 测试 驱动 开发 ， 而 是 叫做 行为 驱动 开发 ( Behavior Driven 
Development, BDD )。 


























说 完了 上 下 文 ， 下 一 个 DSL 的 构成 要 素 是 “语句 ”。 语句 也 就 是 上 下 文中 每 条 独立 的 代码 ， 
在 内 部 DSL 中 实现 函数 和 方法 的 调用 。 





貌似 英语 圈 的 人 总 是 把 让 语句 尽 可 能 看 起 来 接近 英语 这 一 点 看 得 很 重要 。DSL 的 优点 之 一 ， 
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就 是 让 并 非 专 家 的 普通 人 也 能 够 使 用 ， 因 此 ， 为 不 太 懂 编程 的 人 降低 点 门槛 ， 这 样 所 带 来 的 好 
处 也 是 可 以 理解 的 。 不 过 ， 作 为 我 来 说 ( 也 是 因为 我 英语 不 是 很 好 的 缘故 吧 )， 我 觉得 看 上 去 像 
英语 并 不 是 DSL 的 本 质 ， 不 过 还 是 有 很 多 人 执着 于 这 一 点 。 











在 几 年 前 的 一 次 Ruby 大 会 中 有 一 recipe “Spicy Bread" do 
个 以 DSL 为 主题 的 段落 ， 讲 的 内 容 基 本 add 200.grams.of Flour # 加 入 200 克 小 麦 粉 
上 都 是 围绕 着 “在 Ruby 语法 的 范围 内 。 Dd |SPof 四 e992 
到 底 能 设计 出 多 接近 英语 的 DSL” 这 个 em 
话题 ， 从 各 种 角度 来 说 都 让 我 觉得 很 有 图 7 描述 面包 做 法 的 DSL 
意思 。 例 如 ， 如 果 你 问 我 ， 一 个 用 来 描述 面包 做 法 的 DSL 写成 像 图 7 这 样 好 不 好 ， 说 实话 我 还 
真 没 有 什么 自信 。 

话说 ， 如 果 和 忽略 符号 的 话 ， 作 为 英语 来 理解 也 确实 没有 太 大 问题 ,但 越 是 接近 自然 语言 ， 
作为 外 行人 就 越 容易 纠结 在 一 些微 妙 的 差异 上 ， 例 如 到 底 要 在 哪里 加 上 符号 ， 顺 序 能 不 能 调换 
等 等 。 我 觉得 这 正 是 COBOL 曾经 经 历 过 的 坎坷 ,但 英语 圈 的 人 们 却 似 乎 有 着 不 同 的 感触 和 理解 。 
















































































接 下 来 的 一 个 要 素 是 单位 ， 也 就 是 在 图 7 的 例子 中 出 现 的 克 ( grams )、 大 勺 (lsp ) 等 等 。 


由 于 在 Ruby 中 可 以 在 已 有 的 类 中 自由 添加 新 的 方法 ， 利 用 这 一 点 ， 在 上 面 的 例子 中 实际 上 
是 在 整数 类 中 定义 了 grams 方法 和 1sp 方法 。 





我 第 一 次 见 到 这 样 的 扩展 功能 ， 是 在 Ruby on Rails "所 包含 的 ActiveSupport 库 中 。 当 时 我 
看 到 “现在 时 间 的 20 小 时 之 前 ”居然 能 够 写成 “20.hours.ago” 的 时 候 感到 非常 震惊 。 实 际 上 ， 
是 整数 类 中 的 hours 方法 对 20.hours 这 一 调用 返回 了 72000〈3600 秒 x20 ) 这 个 值 ， 而 ago 方 
法 又 返回 了 表示 该 秒 数 之 前 这 一 时 刻 的 一 个 Time 对 象 而 已 。 








这 样 看 来 ，Rails 不 仅 是 一 种 Web 应 用 程序 框架 ， 同 时 也 可 以 说 是 以 Web 应 用 程序 开发 为 
对 象 领域 的 ， 以 Ruby 为 基础 的 内 部 DSL。 











Glenn Vanderburg 所 说 的 另外 两 个 要 素 就 是 词汇 和 层次 结构 。 前 者 的 意思 是 ， 为 目的 领域 定 
义 了 多 少 适 用 的 方法 ， 对 必要 方法 的 自动 生成 功能 也 包含 在 内 。 

例如 ， 在 Rails 中 ， 如 果 数 据 库 的 users 表 中 包含 name 这 一 属性 的 话 ， 那 么 就 可 以 进行 这 
样 的 调用 : 














(QD) Ruby on Rails 简称 Rails ,是 用 Ruby 语言 编写 的 一 个 非常 有 名 的 开源 Web 开发 框架 , 它 遵循 MVC 模 式 ,提出 了 “不 
做 重复 的 事 ”“ “惯例 优 于 配置 ”等 理念 ， 这 些 理念 也 被 后 来 其 他 语言 编写 的 一 些 Web 开发 框架 ( 如 CakePHP、 
Zend 等 ) 借鉴 。 
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User.find_by_name(" 松 本 ") 


其 中 find_by_name 方法 就 是 自动 生成 的 。 





层次 结构 可 以 理解 为 圣 套 的 上 下 文 。 




















Vanderburg 举 了 图 8 这 样 的 一 个 例子 。 这 是 使 用 XmlMarkup 库 的 一 个 例子 ， 将 Ruby 作 
为 一 种 DSL 来 生成 XML， 看 起 来 可 能 比 XML 的 代码 要 易 读 易 写 得 多 。 由 图 8 的 代码 ， 用 
XmlMarkup 所 生成 的 XML 文件 的 内 容 如 图 9 所 示 。 








xml = Builder: :XMLMarkup.new 









































xmlehemile <html> 
Xml .head{ <head> 
xml .title("History") <title>History</title> 
J </head> 
xml .body { <body> 
xml .hl("Header") <hl>Header</h1> 
Xm oi /malaga ne <p>paragraph</p> 
J </body> 
) </html> 
图 8 XmlMarkup 这 一 DSL 来 生成 XML 图 9 XmlMarkup 所 生成 的 XML 
饼 Sinatra 











我 觉得 Rails 具备 DSL 的 性 质 并 不 是 有 意 为 之 ， 而 是 “为 提高 生产 效率 而 追求 抽象 化 而 水 
到 渠 成 的 结果 ” ,但 比 Rails 更 新 的 Web 应 用 程序 框架 中 ,出 现 了 一 些 明显 对 DSL 有 所 意识 的 项 目 ， 
其 中 的 代表 就 是 Sinatra。 





























Sinatra 是 定位 于 较 小 规模 Web 应 用 程序 的 框架 ， 用 Sinatra 编写 的 用 来 显示 “Hello, world!” 
字符 串 的 应 用 程序 如 图 10 所 示 。 对 于 Web 浏览 器 传送 过 来 的 “get /” 请 求 应 当 如 何 响应 ， 正 是 
用 DSL 的 形式 来 表达 的 。 这 种 十 分 简洁 的 表达 方式 ， 以 及 应 用 了 上 下 文 和 语句 的 代码 风格 ， 和 
Rakefile 、shoulda 这 些 以 Ruby 为 基础 的 内 部 DSL 可 以 说 是 有 异曲同工 之 妙 。 














# hello_world.rb 
require 'sinatra"' 


get /do 
"Hello world, it's #{Time.now} at the server!" 
end 














图 10 Sinatra 编写 的 Web 版 Hello World 
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食 小 结 


DSL 是 在 Ruby 界 备 受 关注 的 一 种 方式 ， 或 者 可 能 有 点 红 过 了 头 。DSL 这 个 称呼 虽然 只 是 
最 近 才 出 现 的 ， 但 实际 上 它 已 经 是 从 数 十 年 前 开始 就 已 经 在 使 用 的 技术 了 。 


























不 过 ,正如 通过 给 一 种 设计 模式 起 个 名 字 能 够 提高 其 认 知 度 ,从 而 让 更 多 的 人 来 使 用 它 一 样 ， 
DSL 也 可 能 因为 被 赋予 了 这 个 名 字 而 获得 了 广泛 的 认 知 ， 从 而 对 编程 生产 效率 的 提高 做 出 贡献 。 
今后 ，DSL 也 可 能 作为 判断 设计 优秀 与 否 的 重要 指标 ， 对 软件 开发 产生 巨大 的 影响 。 
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A SERIES 
多 ， 


BF 


SS 


在 Ruby 界 中 ， 元 编程 再 度 成 为 一 个 热点 话题 。Ruby on Rails 等 框架 中 ， 其 生产 性 就 是 通 
过 元 编程 来 实现 的 ， 这 一 点 其 实 已 经 是 老生 常 谈 了 。 不 过 ,《Ruby 元 编程 》" 一 书 于 2010 年 由 
ASCI Media Works 出 版 了 日 文 版 ， 因 此 貌似 有 很 多 人 是 通过 这 本 书 才 重 新 认识 元 编程 的 。 



































在 2010 年 的 RubyKaigi” 上 ， 有 幸 请 到 了 《Ruby 元 编程 》 一 书 的 作者 Paolo Perrotta 来 日 本 
演讲 ， 我 跟 他 也 简单 聊 了 聊 ， 他 好 像 并 没有 Lisp 的 经 验 ， 这 令 我 感到 非常 意外 。 那 么 我 们 就 一 
边 参 考 作为 原点 的 Lisp ， 一 边 来 重新 审视 一 下 元 编程 吧 。 











Meta, Reflection 


48 





“元 ”这 个 词 ， 是 来 自 希腊 语 中 表示 “在 …… 之 间 、 在 …… 之 后 、 超 过 ……” 的 前 级 词 
meta, 具有 超越 高 阶 等 意思 。 从 这 个 意思 引申 出 来 , 在 单词 前 面 加 上 meta, 表示 对 自身 的 描述 。 
例如 ， 摘 述 数 据 所 具有 的 结构 的 数据 ， 也 就 是 关于 数据 本 身 的 数据 ， 被 称 为 元 数据 ( Metadata )。 
再 举 个 比较 特别 的 例子 ， 小 说 中 的 角色 如 果 知 道 自 己 所 身 处 的 故事 是 虚构 的 ， 这 样 的 小 说 就 被 
称 为 元 小 说 (Metafiction ) 2 。 






































综 上 所 述 ， 我 们 可 以 推论 ， 所 谓 元 编程 ， 就 是 “用 程序 来 编写 程序 ”的 意思 。 那 么 ， 用 程 
序 来 编写 程序 这 件 事 有 什么 意义 吗 ? 

像 C 这 样 的 编程 语言 中 ,语言 本 身 所 提供 的 数据 ， 基 本 上 都 是 通过 指针 (地址 ) 和 数值 来 
表现 的 。 在 语言 层面 上 虽然 有 数组 和 结构 体 的 概念 ， 但 经 过 编译 之 后 ， 这 些 信息 就 丢失 了 。 






































不 过 ,“ 现 代 派 ”的 语言 在 运行 的 时 候 ， 还 会 保留 这 样 一 些 信息 。 例 如 在 C++ 中 ， 一 个 对 
象 是 知道 自己 的 数据 类 型 的 ,通过 这 个 信息 ,可 以 在 调用 虚拟 成 员 函 数 时 ,选择 与 自己 的 类 型 (类 ) 
相 匹 配 的 函数 。 在 Java 中 也 是 一 样 。 














一 


QD 《Ruby 元 编程 》( Metaprogramming Ruby )，Paolo Perrotta 著 ， 原 书 出 版 于 2010 年 2 月， 中文 版 于 2012 年 1 月 

由 华中 科技 大 学 出 版 社 出 版 ， 雇 志 刚 、 陈 窒 杰 译 。 
@) RubyKaigi， 原 名 “日 本 Ruby 会 议 ”， 是 一 项 关于 Ruby 编程 语言 的 集会 活动 ， 从 2006 年 开始 每 年 在 日 本 举办 。 
@ 更 常用 的 中 文 译 法 是 “后 设 小 说 ”， 也 叫 “ 超 小 说 ”“、“ 自 反 小 说 ”。 
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像 这 样 获取 和 变更 程序 本 身 信 息 的 功能 ， 被 称 为 反射 (Reflection )。 将 程序 获取 自身 信息 的 
行为 ,用 “看 着 (镜子 中 ) 反射 出 的 身影 来 反省 自己 ”这 样 的 语 境 来 表达 , 听 起 来 还 挺 文艺 的 呢 。 











和 Java .C++ 等 语言 相 比 ,在 Ruby 中 大 部 分 信息 都 可 以 很 容易 地 进行 访问 和 操作 。 作为 例子 ， 
我 们 从 定义 一 个 类 并 创建 相应 的 对 象 开 始 看 。 





Glassaamucek 
def quack 
"quack" 
end 
end 
duck = Duck.new 














我 们 用 class 语句 定义 了 一 个 名 为 Duck 的 类 , 在 Ruby 中 ,类 也 是 一 个 普通 的 对 象 ,也 就 是 说 : 








duck = Duck.new 
表示 调用 Duck 类 这 个 对 象 中 的 new 方法 ， 而 new 方法 被 调用 的 结果 ， 就 是 生成 并 返回 了 
一 个 新 的 Duch 类 的 实例 。 








在 生成 出 来 的 实例 中 ,包含 有 作为 其 “ 母 版 ”的 类 的 信息 ， 这 些 信息 可 以 通过 调用 class 方 
法 来 查询 。 


duekeelass # => Duck 
当 调 用 实例 ( 即 对 象 ) 的 方法 时 ， 实 例会 去 寻找 自己 的 类 。 


duck.quack # => "quack" 


换 句 话说 ， 当 调用 duck 的 quack 方法 时 ， 首 先 要 找到 duck 的 类 (Duck )， 然 后 再 找到 这 个 
类 中 所 定义 的 quack 方法 。 于 是 , 由 于 Duck 类 中 定义 了 quack 方法 ,因此 我 们 便 能 够 调用 它 了 。 





Duck 类 中 定义 的 方法 只 有 quack 一 个 ， 我 们 来 确认 一 下 。 调 用 类 的 instance methods 方法 
可 以 得 到 该 类 中 定义 的 方法 一 览 。 





Duck.instance methods(false) 
#—=> :quack] 


参数 false 表示 仅 显 示 该 类 中 定义 的 方法 。 如 果 不 指定 这 个 参数 ,Duck 类 会 将 从 它 的 父 类 ( 超 
类 ) 中 继承 过 来 的 方法 也 一 起 显示 出 来 。 


在 调用 方法 时 , 如 果 这 个 方法 没有 在 类 中 定义 , 则 会 到 超 类 中 去 寻找 相应 的 方法 。 举 个 例子 ， 
请 看 下 面 的 代码 。 
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duck.to_s # => "#<Duck:0xb756ed2c>" 


由 于 Duck 类 中 并 没有 定义 to_s 方法 ， 因 此 要 到 Duck 类 的 超 类 中 去 寻找 。 可 是 ，Duck 类 
的 超 类 又 是 什么 呢 ? 在 定义 Duck 类 的 时 候 我 们 并 没有 指定 超 类 。 











这 样 的 信息 , 问 问 Ruby 就 能 获得 最 准确 的 答案 。 用 ancestors 方法 就 可 以 得 到 相当 于 该 类 “ 祖 
先 ” 的 超 类 一 览 。 


Duck.ancestors 
# => [Duck,0bject,Kernel,Basicobject] 


从 这 里 我 们 可 以 看 出 ，Duck 类 的 超 类 是 Object 类 。 在 class 语句 中 如 果 不 指 定 超 类 的 话 ， 
则 表示 将 Object 类 作为 超 类 。 





那么 ，to_s 是 否 在 Object 类 中 进行 了 定义 呢 ? 


Object.instance methods(false) 
#°=> [| 


喷 ，Object 类 中 一 个 方法 都 没有 定义 。 其 实 ， 像 to_s 这 样 所 有 对 象 都 共享 的 方法 ， 是 在 其 
上 层 的 Kernel 模块 中 进行 定义 的 。 
到 此 为 止 ， 对 象 的 结构 如 图 1 所 示 。 因 此 , 在 Ruby 中 ， 即 便 是 像 类 这 样 的 元 对 象 ， 也 可 以 


像 一 般 的 对 象 一 样 进行 操作 。 不 对 ,“ 像 …… 一 样 ” 这 个 说 法 还 不 准确 ， 在 Ruby 中 ， 类 和 其 他 
的 对 象 是 完全 相同 的 ， 没 有 任何 区 别 。 





BasicObject 
aa 少 


Kernel 





toBsy( class (nl) 
OO 
Object 


一 一 一 J 一 一 一 | 方法 不 存 
在 则 向 上 
搜索 


Duck 


quack 




















图 1 对 象 结 构图 ( Ver.1 ) 
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仿 类 对 象 














可 是 ， 如 果 说 类 和 其 他 的 对 象 完全 没有 任何 区 别 的 话 ， 那 么 类 的 类 又 是 什么 呢 ? 我 们 还 是 
来 问 问 Ruby 吧 。 


Duck.class # => Class 


也 就 是 说 ， 在 Ruby 中 有 一 个 名 叫 Class 的 类 ， 所 有 的 类 都 可 以 看 做 是 这 个 Class 类 的 实例 。 
有 点 像 绕口令 呢 。 











再 刨 根 问 底 一 下 ， 如 果 所 有 的 类 都 是 Class 类 的 实例 ， 那 么 Class 类 的 类 又 是 什么 呢 ? 
Class.class # => Class 


Class 类 的 类 居然 是 Class， 也 就 是 它 自己 本 身 ， 这 真是 出 乎 意料 呢 。 我 们 再 来 看 看 Class 的 
超 类 又 是 什么 吧 。 要 查看 类 的 直接 上 一 级 父 类 ， 可 以 使 用 superclass 方法 。 














Class.superclass # => Module 


原来 Class 的 超 类 是 Module 呢 ， 而 Module 的 超 类 则 是 Object。 





Module.superclass # => Object 


将 上 面 所 有 的 信息 综合 起 来 ,更 新 之 后 的 对 象 结构 图 如 图 2 所 示 。 像 这 样 ， 就 可 以 直观 地 
看 到 Ruby 中 对 象 和 类 所 具有 的 层次 结构 了 。 











BasicObject 
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2 ” 对象 结 构图 ( Ver.2 ) 
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en 




















， 即 便 说 类 也 是 一 种 对 象 ， 但 类 的 定义 和 方法 的 定义 都 有 专用 的 “语法 ”， 很 难 消除 这 











种 ee 0 我 们 来 看 看 上 面 讲 过 的 Duck 类 的 定义 。 





eallasisa Duck 
def quack 
ualcike 
end 
end 


其 实 ， 和 Ruby 的 其 他 部 分 一 样 ， 通 过 方法 的 调用 也 可 以 实现 同样 的 操作 。 





Duck = Class.new do 
define_method :quack do 
qdUack 
end 
end 





怎么 样 ? “ 先 创建 一 个 Class 类 的 新 实例 ， 然 后 赋值 给 Duck 常量 ”， 


“对 quack 方法 进行 定 














义 ”， 通 过 这 样 的 步骤， 是 不 是 有 更 直接 的 感触 呢 ? 不 过 ， 这 种 写法 可 实在 算 不 上 是 易 读 ， 我 也 






































ee 这 种 写法 只 是 能 够 帮助 你 更 直观 地 理解 “Ruby 的 Class 也 完全 是 一 个 普 
通 的 Ruby 对象” 这 一 概念 而 已 。 好 ， 我 们 来 仔细 看 看 define_method 的 部 分 。 上 面 代码 中 的 第 











2 行 到 第 4 和 和 下 面 的 def 语句 是 等 同 的 。 


def quack 
quacke 
end 




















不 愧 是 有 专用 语法 的 def, 代 码 就 是 简洁 。 这 里 的 define method 方法 


口 以 参数 的 方式 接收 表示 方法 名 的 符号 ( :quack ) 
口 以 代码 块 的 形式 接收 方法 的 定义 部 分 








所 执行 的 具体 操作 如 下 。 


运行 这 个 方法 的 实体 又 是 什么 呢 ? 先 透 露 一 下 答案 吧 ， 运 行 这 个 方法 的 主体 就 是 Duck 类 。 
在 方法 定义 的 部 分 (class 的 代码 中 、Class.new 的 代码 块 中 ) 中 ，self 所 表示 的 是 现在 正在 被 定 
义 的 类 。 在 这 样 的 定义 中 ， 类 就 可 以 通过 调用 define method 方法 来 向 自身 添加 新 的 方法 。 














不 过 ， 肯定 有 人 会 说 ， 用 这 种 比 def 更 加 宛 长 的 方法 到 底 有 什么 意义 呢 ? 因为 通过 调用 方 


法 来 定义 方法 ， 可 以 为 我 们 打开 新 的 可 能 性 。 








例如 ， 假 设 在 某 种 情况 下 需要 定义 foo0 ~ foo99 这 样 100 个 方法 ， 











在 程序 中 写 100 个 def 
日 不 着 真 的 看 到 那 100 个 





语句 实在 是 太 辛 闸 了 。 如 果 是 Java 的 话 ， 通 过 代码 生成 器 ， 也 许可 以 月 
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方法 的 定义 。 而 在 拥有 define_method 的 Ruby 中 ， 我 们 用 下 面 这 样 简单 的 程序 就 可 以 定义 100 
个 方法 。 


100.times do|jil 
define_method("foo#{fil") do 


end 
end 


用 一 个 循环 来 代替 100 个 定义 ， 这 才 是 define_method 真正 的 用 武之 地 。 


这 个 方法 中 self 表示 现在 正在 定义 的 类 ， 利 用 这 一 性 质 ， 在 Ruby 中 可 以 实现 各 种 各 样 的 操 
作 。 例 如 : 


口 指定 要 定义 的 方法 在 怎样 的 范围 内 可 见 (public, protected, private ) 
口 定义 对 实例 变量 的 访问 器 ( attr_accessor, attr_reader, attr Writer ) 





像 这 样 ， 本 来 属于 “声明 ”的 内 容 ， 通 过 调用 方法 就 可 以 实现 ， 这 一 点 是 Ruby 的 长 处 。 


QLisp 


拥有 这 方面 长 处 的 语言 并 不 只 有 Ruby，Lisp 可 以 说 是 这 种 语言 的 老 祖宗 。Lisp 的 历史 相当 
修 久 ,其 诞生 可 以 追溯 到 1958 年 。 说 起 1958 年 ,在 那个 时 候 其 他 的 编程 语言 几乎 都 还 没有 出 现 呢 。 
在 那个 时 代 已 经 存在 ， 并且 现在 还 依然 健在 的 编程 语言 ， 也 就 只 有 FORTRAN (1954 年 ) 和 
COBOL (1959 年 ) 而 已 了 吧 。Lisp 作为 编程 语言 的 特殊 之 处 ， 在 于 它 原 本 并 不 是 作为 一 种 编程 
语言 ， 而 是 作为 一 种 数学 计算 模型 设计 出 来 的 。Lisp 的 设计 者 约翰 麦卡锡， 当时 并 没有 设想 
过 要 将 其 用 作 一 种 计算 机 语言 。 麦 卡 锡 实验 室 的 一 名 人 研究 生 一 一 史 带 芬 * 罗素 ,用 IBM 704 的 
机 器 语言 实现 了 原本 只 是 作为 计算 模型 而 编写 的 万 能 函数 eval， 到 这 里 ，Lisp 才 真 正成 为 了 一 


种 编程 语言 。 










































































Lisp 在 编程 语言 中 可 以 说 是 类 似 OOPArts 一样 的 东西 。 编 程 语言 的 历史 是 由 机 器 语言 、 汇 
语言 开始 ， 逐 步 发 展 到 FORTRAN 、COBOL 这 样 的 “高 级 语言 ”的 。 而 在 这 样 的 历史 中 ， 作 
为 最 古老 语言 之 一 的 Lisp， 居 然 一 下 子 具备 了 超越 当时 时 代 的 很 多 功能 。 


TS 





























1995 年 Java 诞生 的 时 候 ， 虚 拟 机 、 异 常 处 理 、 垃 圾 回收 这 些 概念 让 很 多 人 感到 耳目 一 新 。 
从 将 这 些 技术 普及 到 “一 般 人 ”这 个 角度 来 说 ，Java 的 功绩 是 相当 伟大 的 。 但 实际 上 ， 所 有 这 


























QD Out Of Place Artifacts 的 缩写 ， 意 思 是 “与 时 代 不 符 的 〈 使 用 了 先进 技术 的 ) 遗物 ”。( 原 书 注 








— 
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些 技 术 ， 早 在 Java 诞生 的 几 十 年 前 〈 真 的 是 几 十 年 前 )， 就 是 已 经 在 Lisp 中 得 到 了 实现 。 很 多 
人 是 通过 Java 才 知 道 垃圾 回收 的 ， 而 Lisp 早期 的 解释 锅 中 就 已 经 具备 了 垃圾 回收 机 制 。 由 于 在 
Lisp 中 数据 是 作为 对 象 来 处 理 的 ,内存 分 配 也 不 是 显 式 指定 的 , 因此 垃圾 回收 机 制 是 不 可 或 缺 的 。 
于 是 这 又 是 一 项 40 多 年 前 的 技术 呢 。 









































像 虚 拟 机 (Virtual machine )、 字 市 码 解释 器 (Bytecode interpreter ) 这 些 词汇 ， 也 是 通过 
Java 才 普 及 开 来 的 ， 但 它们 其 实 是 Smalltalk 所 使 用 的 技术 。Smalltalk 的 实现 可 以 追溯 到 20 世 
纪 70 年 代 末 到 80 年 代 初 ,因此 这 一 技术 也 受到 了 Lisp 的 影响 ， 只 要 看 看 就 会 发 现 ，Smalltalk 
的 解释 带 和 Lisp 的 解释 器 简直 是 一 个 模子 刻 出 来 的 。 























饼 数 据 和 程序 


54 








几 是 看 过 Lisp 程序 的 人 ， 疏 怕 都 会 感慨 “这 个 语言 里 面 怎么 这 么 多 括号 啊 "。 图 3 显示 的 
就 是 一 个 用 于 阶乘 计算 的 Lisp 程序 ,图 4 ji Ruby 写 的 功能 相同 的 程序 , 大 家 可 以 比较 一 下 ， 
括号 的 确 很 多 呢 ,， 尤其 是 表达 式 结 束 的 部 分 那 一 大 串 括 号 ， 相 当 醒 目 。 这 种 Lisp 的 表达 式 写法 ， 
被 称 为 $ 表达 式 。 不 过 ， 除 此 之 外 的 部 分 基本 上 是 可 以 一 一 对 应 的 。 值 得 注意 的 有 下 面 几 点 : 



































口 Lisp 是 通过 括号 来 体现 语句 和 表达 式 的 
口 Lisp 中 没有 通常 的 运算 符 ， 而 是 全 部 采用 由 括号 括 起 来 的 函数 调用 形式 
口 “1-” 是 用 来 将 参数 减 1 的 函数 

















# 这 里 体现 了 Lisp 和 Ruby 的 相似 性 
def fact(n) 


Ln 
; ;; 通过 归纳 法 定义 的 阶乘 计算 
(defun fact(n) else 
(el (= nac en 二 
1 end 
Can (ractm 1 mn))))) end 


Gfact6 人 20 


到 3 ”Lisp 编写 的 阶乘 程序 





























fact(6) # => 结果 为 720 








图 4 Rupy 编写 的 阶乘 程序 














在 Lisp 中 ， 最 重要 的 数据 类 型 是 表 ( List )， 甚 至 Lisp 这 个 名 字 本 身 也 是 从 List Processor 





而 来 的 © 


一 个 表 是 由 被 称 为 单元 ( Cell ) 的 数据 连接 起 来 所 构成 的 ( 图 5 )。 一 个 单元 包含 两 个 值 ， 





一 个 叫做 car， 另 一 个 叫做 cdr。 它 们 的 值 可 以 是 对 其 他 单元 的 引用 , 或 者 是 被 称 为 原子 ( Atom ) 


的 非 单元 值 。 例 如 ， 数 值 、 字 符 串 、 








符号 等 ， 都 属于 原子 。 
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例 : (1 2 3) 这 样 一 个 表 的 实际 结构 


car cdr 


单元 






































] 
3 nil 
到 5 Lisp 的 表 











S 表达 式 是 用 来 描述 这 种 表 的 记 法 , 它 遵 循 下 述 规则 ( 语法 )。 首 先 , 单元 是 用 点 对 (Dotted 
邮 pair ) 来 描述 的 。 例 如 ，car 和 cdr 都 为 数值 1 的 单元 ， 要 写成 下 面 这 样 。 
电 CL 1 





其 次 ，cdr 部 分 如 有 果 是 一 个 表 ， 则 省 上 略 点 和 括号 ， 也 就 是 说 : 





后 

















然后 ， 如 果 cdr 部 分 为 nil， 则 省 略 cdr 部 分 。 于 是 : 
(GI 2 es 
应 该 写成 : 


(23 














S 表达 式 的 基本 规则 就 只 有 上 面 这 些 。 只 要 理解 了 上 述 规则 ， 就 可 以 通过 “括号 的 罗列 ” 
来 想象 出 实际 的 表 结 构 。 掌 握 了 规则 之 后 再 看 图 5， 应 该 就 能 够 理解 得 更 加 清楚 了 吧 。 











那么 这 里 重要 的 一 点 是 ，Lisp 程序 是 通过 S 表达 式 来 进行 表达 的 。 换 句 话 说 ，Lisp 程序 正 
是 通过 Lisp 本 身 最 频繁 操作 的 表 的 方式 来 表达 的 。 这 意味 着 程序 和 数据 是 完全 等 同 的 ， 在 这 一 
点 上 非常 符合 元 编程 的 概念 ， 实 际 上 ， 元 编程 已 经 深 深 融入 Lisp 之 中 ， 成 为 其 本 质 的 一 部 分 。 
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第 多 章 编程 语言 的 过 去 、 现 在 和 未 来 


仿 Lisp 程序 





Lisp 程序 是 由 形式 ( Form ) 排列 起 来 构成 的 。 形 式 就 是 $ 表达 式 ， 它 通过 下 面 的 规则 来 进 
行 求 值 。 


口 符号 (Symbol ) 会 被 解释 为 变量 ， 求 出 该 变量 所 绑 定 的 值 。 

口 除 符号 以 外 的 原子 ， 则 求 出 其 自身 的 值 。 即 : 整数 的 话 就 是 该 整数 本 身 ， 字 符 串 的 话 就 
是 该 字符 串 本 身 。 

口 如 果 形 式 为 表 ， 则 头 一 个 符号 为 “函数 名 ”， 表 中 剩余 的 元 素 为 参数 ”。 











在 形式 中 ， 表 示 函 数 名 的 部 分 ， 实 际 上 还 分 为 函数 、 特 殊 形 式 和 宏 三 种 类 型 ， 它 们 各 自 的 
行为 都 有 所 区 别 。 函 数 相当 于 C 语言 中 的 函数 ， 或 者 Ruby 中 的 方法 ， 在 将 参数 求 值 后 ， 函 数 
就 会 被 调用 。 特 丈 形 式 则 相当 于 其 他 语言 中 的 控制 结构 ， 这 些 结构 是 无 法 通过 困 数 来 表达 的 。 
例如 ，Lisp 中 用 于 赋值 的 setq 特殊 形式 ， 写 法 如 下 : 

(setq a 128) 

假设 setq 是 一 个 函数 ， 那 么 a 作为 其 参数 会 被 求 值 ， 而 不 会 对 变量 a 进行 赋值 。setq 并 不 
会 对 a 进行 求 值 ， 而 是 将 其 作为 变量 名 来 对 待 ， 这 是 Lisp 语言 中 直接 设 定好 的 规则 ， 像 这 样 拥 
有 特殊 待遇 的 形式 就 被 称 为 特殊 形式 。 除 了 setq 以 外 ， 特 殊 形式 还 有 用 于 条 件 分 支 的 证 和 用 于 
定义 局 部 变量 的 let。 








洲 


和 





对 Lisp 的 介绍 篇 幅 比 预想 的 要 长 。 其 实 , 我 真正 想 要 介绍 的 就 是 这 个 “ 宏 ”( Macro )。Lisp 
中 的 宏 ， 可 以 在 对 表达 式 求 值 时 ， 通 过 对 构成 程序 的 表 进行 操作 ， 从 而 改写 程序 本 号。 首先 ， 
我 们 来 将 它 和 函数 做 个 比较 。 

首先 ， 我 们 来 看 看 对 参数 进行 平方 计算 的 函数 square (图 6 


(defun square (x) 


上 )， 以 及 将 参数 进行 平方 计算 的 宏 square2 (图 6 下 ) 的 定义 。 CE x )) 
看 出 区 别 了 吗 ? (defmacro Square2 (x) 


(St <) 


在 函数 定义 中 使 用 了 defun ( def function 的 缩写 )， 而 在 宏 定 
义 中 则 用 的 是 defmacro， 这 是 一 点 区 别 。 男 外 ， 宏 所 返回 的 不 是 








图 6 水 数 定义 和 宏 定 义 









































Q@ 这 是 CommonLisp 等 被 称 为 Lisp-2 系列 的 Lisp 中 的 行为 ,Scheme 等 属于 Lisp-1 系列 的 语言 中 ,行为 是 有 区 别 的 。 
( 原 书 注 ) 
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求 值 的 结果 ， 而 是 以 表 的 形式 返回 要 在 宏 被 调用 的 地 方 钥 入 的 表达 式 。 例 如 ， 如 果 要 对 : 
(Square2 2) 


进行 求 值 的 话 ，Lisp 会 找到 square2， 发 现 这 是 一 个 安 ， 首 先 ， 它 
square2 本 身 进 行 求 值 。list 是 将 作为 参数 传递 的 值 以 表 的 形式 返回 的 函数 。 





会 用 2 作为 参数 ， 对 





(ST XX 22 


然后 ， 将 这 个 结果 舱 和 人 到 调用 square2 的 地 方 ， 再 进行 实际 的 求 值 。 




















虽说 就 square 和 square2 来 说 ( ee )， 两 种 方法 基本 上 没什么 区 别 ， 
但 通过 使 用 获取 参数 、 加 工 、 然 后 再 能 入 的 技术 ， 只 要 是 遵循 $ 表达 式 的 语法 ， 其 可 能 性 就 几 
乎 是 无 限 的 。 无 论 是 创建 新 的 控制 结构 ， 还 是 在 中 创建 其 他 的 语言 (内 部 DSL ) 都 十 分 得 
心 应 手 。 

















由 宏 所 实现 的 这 种 “只 要 在 S 表达 式 范围 内 便 无 所 不 能 ”的 性 质 , 是 Lisp 的 重要 特性 之 一 。 
实际 上 ,包括 CommonLisp 中 用 于 函数 定义 的 defun 在 内 ， 其 语言 设计 规格 中 有 相当 一 部 分 就 
是 通过 安 来 实现 的 。 








那么 ， 我 们 来 想 想 看 有 没有 只 有 通过 
能 实现 的 例子 呢 ? 图 7 的 程序 是 将 指定 变 
容 加 1 的 宏 inc。 图 7 inc 实 


地 :: 


才 (defmacro inc (var) 
内 (list selon va eis eval 














“将 变量 的 内 容 加 1” 这 样 的 操作 ， 由 于 包 























含 赋值 操作 ， 用 一 般 的 函数 是 无 法 实现 的 。 但 0 4 全 的 各 大 生生 

Setq a 41) ;; 变量 a 初 始 化 
是 ,使 用 宏 就 可 以 很 容易 地 实现 这 样 的 扩展 操 (inc a) ; ; a 的 值 变 为 42 
作 。,inc 宏 实际 使 用 的 例子 如 图 8 的 (a) 部 分 所 示 。 sa CD) am 


5 用 macroexpand 函 数 可 以 查看 宏 的 展开 结果 
宏 的 展开 结果 可 以 用 macroexpand 函数 来 查 (macroexpand '(inc a)) 


看 。 图 8 的 (b) 部 分 中 ， 我 们 就 用 macroexpand ee 

函数 来 查看 了 宏 的 展开 结果 ， 它 的 展开 结果 是 。 图 8 inc 宏 的 使 用 

一 个 setq 赋值 语句 。 我 们 的 这 个 宏 非 常 简单 ， 但 如 果 是 复杂 的 宏 ， 便 很 难 想 象 出 其 展开 结果 会 是 
什么 样子 ， 因 此 macroexpand 函数 对 于 宏 的 调试 是 非常 有 效 的 。 









































饼 宏 的 功 与 过 











正如 刚才 讲 过 的 ，Lisp 的 宏 是 非常 强大 的 。 要 展现 宏 的 强大 ， 还 有 一 个 例子 ， 就 是 CLOS 
(Common Lisp Object System )。 


图 灵 社区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


第 多 章 “编程 语言 的 过 去 、 现 在 和 未 来 


58 








在 CommonLisp 第 一 版 中 ， 并 没有 提供 面向 对 象 的 功能 。 在 第 二 版 中 则 在 其 规格 中 默认 包 
含 了 这 个 名 为 CLOS 的 面向 对 象 功 能 ， 这 个 功能 的 实现 ， 是 通过 宏 等 手段 ， 仅 由 CommonLisp 
自身 完成 的 。CommonLisp〈 及 其 宏 ) 实在 是 太 强大 了 ,在 语言 本 身 没 有 进行 增强 的 情况 下 ， 就 
可 以 定义 出 面向 对 象 功 能 。 而 之 所 以 默认 包含 在 语言 规格 中 ， 只 是 为 了 消除 因为 实现 方法 不 同 
而 产生 的 不 安定 因素 ， 将 这 一 实现 方法 用 严密 的 格式 写成 了 文档 而 已 ”。 











而 且 ，CLOS 并 不 是 只 是 一 个 做 出 来 玩 玩 的 玩具 ， 而 是 一 个 真正 意义 上 的 ， 拥 有 大 量 丰 富 
功能 的 复杂 的 面向 对 象 系统 ， 实 现 了 同时 代 的 其 他 语言 到 现在 为 止 都 未 能 实现 的 功能 ”。 

















例如 ，Ruby 虽然 是 一 种 非常 灵活 的 动态 语言 ， 但 它 的 面向 对 象 功能 也 是 用 内 髓 的 方式 来 实 
现 的 ， 靠 语言 本 身 的 能 力 来 实现 面向 对 象 的 功能 是 做 不 到 的 。 而 这 样 的 功能 ，Lisp 却 仅仅 通过 
语言 本 身 的 能 力 定 义 了 出 来 ， 不 得 不 说 Lisp 和 它 的 宏 简 直 强 大 到 令 人 发 指 。 





























既然 宏 如 此 强大 ， 那 为 什么 Ruby 等 其 他 语言 中 没有 采用 Lisp 风格 的 宏 呢 ? 

















其 中 一 个 原因 是 语法 的 问题 。Lisp 宏 的 强大 力量 ， 源 于 程序 和 数据 采用 相同 结构 这 一 点 。 
然而 与 此 同时 ，Lisp 程序 中 充满 了 括号 ， 并 不 是 “一 般 的 程序 员 ” 所 熟悉 和 习惯 的 语法 。 

















作为 一 个 语言 设计 者 ， 自 己 的 语言 是 否 要 采用 $ 表达 式 ， 是 一 个 重大 的 决策 。 为 了 强大 的 
宏 而 牺牲 语 法 的 易 读 和 易 懂 性 ， 做 出 这 样 的 判断 是 十 分 困难 的 。 


在 没有 采用 S 表达 式 的 语言 中 ， 也 有 一 些 提供 了 宏 功 能 。 例 如 C (和 C++ ) 中 的 宏 是 用 预 
处 理 器 〈Preprocessor ) 来 实现 的 , 不过, 这 种 方式 只 能 做 简单 的 字符 串 蔡 换 , 无 法 编写 复杂 的 宏 。 
以 前 ,美国 苹果 公司 开发 过 一 种 叫做 Dylan “的 语言 ,采用 了 和 Algol 类 似 的 ( 比较 一 般 的 ) 语法 ， 
但 也 对 宏 的 实现 做 出 了 尝试 ,不 过 由 于 诸多 原因 ， 它 还 没有 普及 就 天 折 了 。 











男 一 个 难点 在 于 ， 如 果 采 用 了 宏 ， 程 序 的 解读 就 会 变 得 困难 。 





宏 的 优点 在 于 ,包括 控制 结构 的 定义 在 内 ， 只 要 在 S 表达 式 语法 的 范围 内 就 可 以 实现 任何 
功能 ,但 这 些 功能 也 仅 限 于 增强 语言 的 描述 能 力 和 提供 内 部 DSL ( 特定 领域 语言 ) 而 已 ， 此 外 











Q@ 作者 在 给 译 者 的 电子 邮件 中 ， 对 这 一 内 容 做 出 如 下 补充 : 由 于 CLOS 是 只 用 CommonLisp 内 置 功 能 ( 如 宏 等 ) 
来 实现 的 ， 因 此 实际 上 任何 人 都 可 以 用 不 同 的 方法 实现 类 似 的 功能 ， 为 了 让 CLOS 能 够 跨 解释 器 通用 ， 因 此 在 
文档 中 对 其 实现 方式 进行 了 标准 化 。 当然, 并 不 是 所 有 的 CommonLisp 解释 融 中 的 CLOS 都 是 仅 通 过 宏 来 实现 的 ， 

出 于 速度 方面 的 优化 等 考虑 ， 将 CLOS 直接 租 入 到 解释 器 中 的 做 法 也 很 常见 。 

@ CLOS 定义 于 1988 年 。( 原 书 注 ) 

G@) Dylan ( 名称 来 自 DYnamic LANguage 的 缩写 ) 是 一 种 多 范式 跨 平台 编程 语言 ， 由 苹果 公司 于 20 世纪 90 年 代 初 
开始 开发 ， 后 来 项 目 被 终止 ， 只 发 布 了 一 个 技术 版 本 。 后 来 Harlequin 公司 和 卡 内 基 梅 隆 大 学 的 团队 分 别 发 布 了 
Dylan 的 Windows 和 Unix 版 本 ， 目 前 由 开源 社区 Open Dylan 运营 维护 。 
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并 没有 什么 更 高 级 的 用 法 了 。 不 过 ， 反 过 来 说 ， 这 也 意味 着 如 果 不 具备 宏 所 提供 的 新 语法 的 相 
关 知 识 ， 就 很 难 把 握 程序 的 含义 。 如 果 你 让 Lisp 高 手 谈 谈 关 于 宏 的 话题 ， 他 们 大 概 会 异口同声 
地 说 :“ 宏 千 万 不 能 多 用 ， 只 能 在 关键 时 刻 用 一 下 。” 说 起 来 ， 元 编程 本 里 也 差不多 是 这 样 一 个 
趋势 吧 。 





























不 过 ， 作 为 Ruby 语言 的 设计 者 ， 依 我 看 ， 宏 的 使 用 目的 中 很 大 的 一 部 分 ， 主 观 判 断 大 约 
有 六 七 成 的 情况 ， 其 实 都 可 以 通过 Ruby 的 代码 块 来 实现 。 我 的 看 法 是 ， 从 这 个 角度 来 说 ,在 
Ruby 中 提供 宏 功 能 ， 实 际 上 是 棘 大 于 利 的。 然而 ， 追 求 更 强大 的 功能 是 程序 员 的 天 性 ， 我 也 经 
常 听 到 希望 Ruby 增加 宕 功能 的 意见 ， 据 说 甚至 有 人 通过 修改 Ruby 的 解释 融 ， 已 经 把 宏 功 能 给 
搞 出 来 了 。 唔 …… 









































尺 元 编程 的 可 能 性 与 危险 性 











在 Ruby 和 Lisp 这 样 的 语言 中 ， 由 于 程序 本 身 的 信息 是 可 以 被 访问 的 ， 因 此 在 程序 运行 过 
程 中 也 可 以 对 程序 本 身 进 行 操 作 ， 这 就 是 元 编程 。 使 用 元 编程 技术 ， 可 以 实现 通常 情况 下 无 法 
实现 的 操作 。 例 如 ，Ruby on Rails 的 数据 库 适 配器 ActiveRecord 可 以 读 取 数 据 库 结构 ， 通 过 元 
编程 技术 在 运行 时 添加 用 于 访问 数据 库 记 录 的 方法 。 这 样 一 来 ， 即 便 数 据 库 结构 发 生变 化 ,在 
软件 一 侧 也 没有 必要 做 出 任何 修改 。 


















































再 举 一 个 例子 ， 我 们 来 看 看 Builder 这 个 库 。Builder 是 用 于 生成 标记 语言 (Mark-up 
language ) 代码 的 库 ， 应 用 示例 如 图 9 所 示 。 








require "builder" 


builder = Builder: :XmlMarkup.new 
xml = builder.person {|b| 
b.name("Jim") 
b.phone("555-1234") 
有 
#=> <person><name>Jim</name><phone>555-1234</phone></person> 








妈 9 Builder 库 的 应 用 


在 图 9 的 示例 中 ，person 和 name、phone 等 标签 是 作为 方法 来 调用 的 ， 但 这 些 方法 并 不 是 
由 Builder 库 所 定义 的 。 由 于 XML (Extensible Markup Language， 可 扩展 标记 语言 ) 中 并 没有 
事先 规定 要 使 用 哪些 标签 , 因此 在 库 中 对 标签 进行 预先 定义 是 不 可 能 的 。 于 是 , 在 Builder 库 中 ， 
是 通过 元 编程 技术 ， 用 钧 子 ( Hook ) 截获 要 调用 的 方法 ， 来 生成 所 需 的 标签 的 。 


















































无 论 是 ActiveRecord 的 示例 ， 还 是 Builder 的 示例 ， 都 通过 元 编程 技术 对 无 法 预先 确定 的 操 
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作 进行 了 应 对 ， 这 样 一 来 ， 未 来 的 可 能 性 就 不 会 被 禁 钢 ， 体 现 了 语言 的 灵活 性 。 我 认为 ， 这 种 
灵活 性 正 是 元 编程 最 大 的 力量 。 








另 一 方面 ， 元 编程 技术 如 果 用 得 太 多 ， 编 写 出 来 的 程序 就 很 难 一 下 子 看 明白 。 例 如 ,在 
Builder 库 的 源 代码 中 ， 怎 么 看 也 找 不 到 定义 person 方法 的 部 分 ， 如 果 没 有 元 编程 知识 的 话 ， 要 
理解 源 代 码 就 很 困难 。 和 宏一 样 ， 元 编程 的 使 用 也 需要 掌握 充分 的 知识 ， 并 遵守 用 量 和 用 法 。 





依 小 结 


读 过 《Ruby 元 编程 》 一 书 之 后 ， 印 象 最 深 的 是 下 面 这 段 。 








根本 没有 什么 元 编程 ， 只 有 编程 而 已 。( 中 略 ) 这 名 话 让 弟子 茅 塞 顿 开 。 


的 确 如 此 。 程 序 是 由 数据 结构 和 算法 构成 的 ， 然 而 ， 如 果 环 境 允 许 程序 本 身 作为 数据 结构 
来 操作 的 话 ， 那 么 元 编程 也 就 和 面向 一 般 数 据 结构 的 一 般 操作 没什么 两 样 了 。 作 为 像 Lisp 和 
Ruby 这 样 允 许 对 程序 结构 进行 访问 的 语言 来 说， 所 谓 元 编程 ， 实 际 上 并 不 是 什么 特殊 的 东西 ， 
而 只 不 过 是 日 常 编程 的 一 部 分 罢了 。 
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Z SR 
2.4 内 存 管 理 
BY A 


SN 


NN 


在 现实 世界 中 总 有 这 样 那样 的 局 限 和 制约 ， 但 计算 机 将 人 类 从 那些 局 限 中 解放 出 来 一 一 至 
少 是 在 试图 努力 实现 这 个 目标 。 然 而 ， 计 算 机 也 是 现实 世界 存在 的 一 部 分 ， 当 然 其 本 身 也 会 受 
到 制约 。 因 此 ,计算 机 只 是 提供 了 一 种 幻觉 ,让 我 们 人 类 以 为 自己 已 经 从 这 些 制约 中 解放 出 来 了 。 


























尺 看 似 无 限 的 内 存 


我 们 来 具体 讲 讲 吧 。 比 如 说 ， 内 存 。 大 家 的 电脑 上 面 装 了 多 大 的 内 存 呢 ?最 近 的 电脑 内 存 
大 多 都 有 几 个 GB 吧 ， 我 手 上 的 笔记 本 电脑 内 存 有 8GB。 我 上 高 中 的 时 候 ， 电 脑 只 有 32KB 的 
RAM，8GB 的 容量 相当 于 其 25 万 倍 了 。 也 就 是 说 ,在 这 30 年 中 ， 一 般 人 可 以 获得 的 内 存 容 量 
是 30 年 前 的 25 万 倍 。25 万 倍 …… 














不 过 ， 无 论 内 存 容量 有 多 大 ， 总 归 不 是 无 限 的 。 实 际 上 ， 伴 随 着 内 存 容 量 的 增加 ， 软 件 的 
内 存 开销 也 在 以 同样 的 速率 增加 着 。 因 此 ， 最 近 的 计算 机 系统 会 通过 “双重 ”幻觉 ， 让 我 们 以 
为 内 存 容量 是 无 限 的 。 


第 一 重 幻觉 是 垃圾 回收 (GC ) 机 制 。 关 于 这 一 点 我 们 稍 后 会 详细 讲解 。 






































第 二 重 幻觉 是 操作 系统 提供 的 虚拟 内 存 。 由 于 人 硬盘 的 容量 要 远 远 大 于 内 存 (RAM )， 虚 拟 
内 存 正 是 利用 这 一 点 ， 在 内 存 容量 不 足 时 将 不 经 常 被 访问 的 内 存 空间 中 的 数据 写 和 硬盘， 以 增 
加 “账面 上 ”可 用 内 存 容量 的 手段 。 现 在 ， 虽 说 内 存 容量 已 经 增加 了 很 多 ,但 也 不 过 是 区 区 几 
个 GB 而 已 。 相对 的 ,即便 是 笔记 本 电脑 上 的 人 硬盘 ,也 已 经 有 几 百 GB 的 容量 ,超过 1TB ( 1000GB ) 
的 也 开始 出 现 了 。 虚 拟 内 存 也 就 是 利用 了 这 样 的 容量 差异 。 














书桌 上 的 文件 摊 满 了 ， 也 就 没 地 方 放 新 的 文件 了 。 所 谓 虚拟 内 存 ， 就 好 比 是 将 书桌 上 比较 
老 的 文件 先 暂 时 收 到 抽 尾 里， 用 空 出 来 的 地 方 来 摊 开 新 的 文件 。 

















不 过 ， 如 果 在 书桌 和 抽 居 之 间 频 繁 进行 文件 的 交换 ， 工 作 效 率 肯定 会 下 降 。 如 果 每 次 要 看 
一 份 文件 都 要 先 收 拾 书桌 再 到 抽 居 里 面 拿 的 话 ， 那 工作 根本 就 无 法 进行 了 。 虚 拟 内 存 也 有 同样 
的 缺点 。 硬 盘 的 容量 比 内 存 大 ， 但 相对 的 ， 速 度 却 非常 缓慢 ， 如 果 和 硬盘 之 间 的 数据 交换 过 于 
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频繁 ， 处 理 速 度 就 会 下 降 ， 表 面 上 看 起 来 就 像 卡 住 了 一 样 ， 这 种 现象 被 称 为 抖 劲 ( Thrushing )。 
应 该 有 很 多 人 有 过 计算 机 停止 响应 的 经 历 ， 而 造成 死机 的 主要 原因 之 一 就 是 抖动 。 





多 GC 的 三 种 基本 方式 








好 了 ， 下 面 我 们 来 讲 讲 GC ( Garbage Collection )。 在 Java 和 Ruby 这样 的 语言 中 ， 程 序 在 
运行 时 会 创建 很 多 对 象 。 从 编程 语言 的 角度 来 看 ， 它 们 是 对 象 ; 但 从 计算 机 的 角度 来 看 ， 它 们 
也 就 是 一 些 装 有 数据 的 内 存 空间 而 已 。 


在 C 和 C+t+ 这 样 的 语言 中 ,这些 内 存 空间 是 由 人 手动 进行 管理 的 。 当 需要 内 存 空间 时 ， 要 

















请 求 操作 系统 进行 分 配 ， 不 需要 的 时 候 要 返还 给 操作 系统 。 然 而 ， 正 是 “不 再 需要 ”这 一 点 ， 
佛 来 了 各 种 各 样 的 麻烦 。 





因为 “不 再 需要 ”而 返还 给 操作 系统 的 内 存 空间 ， 会 被 操作 系统 重新 利用 ， 如 果 不 小 心 访 
问 了 这 些 空间 的 话 ， 里 面 的 数据 会 被 改写 ， 这 会 造成 程序 的 异常 行为 ， 甚 至 是 骨 溃 。 反 过 来 说 ， 
如 果 认 为 某 些 内 存 空间 “可 能 还 要 用 到 ”而 不 还 给 操作 系统 ， 或 者 是 用 完了 却 忘 记 返 还 ， 这 些 
无 法 访问 的 空间 就 会 一 直 保留 下 来 ， 造 成 内 存 的 白白 浪费 ， 最 终 引 发 性 能 下 降 和 产生 拌 动 。 从 
结果 来 看 ， 让 人 来 管理 大 量 分 配 的 内 存 空间 ， 是 非常 困难 的 。 















































将 内 存 管理 ， 尤 其 是 内 存 空 间 的 释放 实现 自动 化 ， 这 就 是 GC。GC 其 实 是 个 古老 的 技术 ， 
从 20 世纪 60 年 代 就 开始 研究 ， 还 发 表 了 不 少 论文 。 这 项 技术 在 大 学 实验 室 级 别 的 地 方 已 经 应 
用 了 很 长 时 间 , 但 是 可 以 说 ， 从 20 世纪 90 年 代 Java 出 现 之 后 ， 一 般 的 程序 员 才 有 缘 接触 到 它 。 
在 此 之 前 ， 这 项 技术 还 只 是 少数 人 的 专利 。 








饼 术 语 定义 
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在 讲解 GC 技术 之 前 ， 我 们 先 来 定义 两 个 即将 用 到 的 术语 。 


1. 垃圾 

















所 谓 垃 圾 ( Garbage )， 就 是 需要 回收 的 对 象 。 作 为 编写 程序 的 人 ， 是 可 以 做 出 “这 个 对 象 
已 经 不 再 需要 了 ”这 样 的 判断 ， 但 计算 机 是 做 不 到 的 。 因 此 ， 如 果 程序 (通过 某 个 变量 等 等 ) 
可 能 会 直接 或 间接 地 引用 一 个 对 象 ， 那 么 这 个 对 象 就 被 视 为 “存活 ”; 与 之 相反 ,已 经 引用 不 到 
的 对 象 被 视 为 “死亡 ”。 将 这 些 “ 死 亡 ” 对 象 找 出 来 ,然后 作为 垃圾 进行 回收 ,这 就 是 GC 的 本 质 。 
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2. 根 











所 谓 根 《Root )， 就 是 判断 对 象 是 否 可 被 引用 的 起 始点 。 至 于 哪里 才 是 根 ， 不 同 的 语言 和 绵 
译 需 都 有 不 同 的 规定 ， 但 基本 上 是 将 变量 和 运行 栈 空间 作为 根 。 





























好 了 ,用 上 面 这 两 个 术语 ， 我 们 来 讲 一 讲 主 要 的 GC 算法 。 


全. 标记 清除 方式 








标记 清除 (Mark and Sweep ) 是 最 早 开 发 出 的 GC 算法 (1960 年 )。 它 的 原理 非常 简单 ， 首 





先 从 根 开 始 将 可 能 被 引用 的 对 象 用 递归 的 方式 进行 标记 ， 然 后 将 没有 标记 到 的 对 象 作为 垃圾 进 
行 回收 。 
1 显示 了 标记 清除 算法 的 大 致 原理 。 初始 状态 





1 中 的 (1) 部 分 显示 了 随 着 程序 的 运行 而 分 配 出 一 
些 对 象 的 状态 ， 一 个 对 象 可 以 对 其 他 的 对 象 进 行 引 用 。 


图 中 (2) 部 分 中 ，GC 开始 执行 ， 从 根 开 始 对 可 能 
引用 的 对 象 打上 “标记 ”。 大 多 数 情 况 下 ， 这 种 标记 是 通 
过 对 象 内 部 的 标志 (Flag ) 来 实现 的 。 于 是 ， 被 标记 的 对 
象 我 们 把 它们 涂 黑 。 

中 (3) 部 分 中 ， 被 标记 的 对 象 所 能 够 引用 的 对 象 也 
被 打上 标记 。 重 复 这 一 步骤 的 话 ， 就 可 以 将 从 根 开 始 可 能 
被 间接 引用 到 的 对 象 全 部 打上 标记 。 到 此 为 止 的 操作 ， 称 
为 标记 阶段 (Mark phase )。 标 记 阶 段 完 成 时 ， 被 标记 的 
对 象 就 被 视 为 “存活 ”对 象 。 


(4) 
1 中 的 (4) 部 分 中 ， 将 全 部 对 象 按 顺序 扫描 一 过 ， 根 























清除 阶段 


将 没有 被 标记 的 对 象 进行 回收 。 这 一 操作 被 称 为 清除 阶段 © 
( Sweep phase )。 在 扫描 的 同时 ， 还 需要 将 存活 对 象 的 标 人 .已 标 记 的 对 久 
记 清 除 掉 ， 以 便 为 下 一 次 GC 操作 做 好 准备 。 图 1 标记 清除 算法 

















标记 清除 算法 的 处 理 时 间 ， 是 和 存活 对 象 数 与 对 象 总 数 的 总 和 相关 的 。 





作为 标记 清除 的 变形 ， 还 有 一 种 叫做 标记 压缩 ( Mark and Compact ) 的 算法 ， 它 不 是 将 被 
标记 的 对 象 清 除 ， 而 是 将 它们 不 断 压 缩 。 
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饼 复制 收集 方式 








标记 清除 算法 有 一 个 缺点 ， 就 是 在 分 配 了 大 量 对 象 ， 并 且 其 中 只 有 一 小 部 分 存活 的 情况 下 ， 
所 消耗 的 时 间 会 大 大 超过 必要 的 值 ， 这 是 因为 在 清除 阶段 还 需要 对 大 量 死亡 对 象 进 行 扫描 。 





复制 收集 ( Copy and Collection ) 则 试 





图 克服 这 一 缺点 。 在 这 种 算法 中 ， 会 将 从 根 开始 被 引 


用 的 对 象 复制 到 男 外 的 空间 中 ,然后 ， 青 将 复制 的 对 象 所 能 够 引用 的 对 象 用 递归 的 方式 不 断 复 





制 下 去 。 


图 2 的 (1) 部 分 是 GC 开始 前 的 内 存 状态 ， 这 和 
图 1 的 (1) 部 分 是 一 样 的 。 图 2 的 (2) 部 分 中 ， 在 旧 
对 象 所 在 的 “ 旧 空 间 ” 以 外 ,再 准备 出 一 块 “新 空间 ”， 
并 将 可 能 从 根 被 引用 的 对 象 复制 到 新 空间 中 。 图 中 
(3) 部 分 中 ， 从 已 经 复制 的 对 象 开 始 ， 再 将 可 以 被 引 
用 的 对 象 像 一 串 糖 葫芦 一 样 复制 到 新 空间 中 。 人 复制 完 
成 之 后 ,“ 死 亡 ” 对 象 就 被 留 在 了 旧 空 间 中 。 图 中 (4) 
部 分 中 ， 将 旧 空 间 废弃 掉 ， 就 可 以 将 死亡 对 象 所 占用 
的 空间 一 口气 全 部 释放 出 来 ， 而 没有 必要 再 次 扫描 每 
个 对 象 。 下 次 GC 的 时 候 ， 现 在 的 新 空间 也 就 变 成 了 
将 来 的 旧 空 间 。 



































通过 图 2 我 们 可 以 发 现 ， 复制 收集 方式 中 ， 只 存 
在 相当 于 标记 清除 方式 中 的 标记 阶段 。 由 于 清除 阶段 
中 需要 对 现存 的 所 有 对 象 进行 扫描 , 在 存在 大 量 对 象 ， 
且 其 中 大 部 分 都 即将 死亡 的 情况 下 ， 全 部 扫描 一 遍 的 
开销 实在 是 不 小 。 














而 在 复制 收集 方式 中 ， 就 不 存在 这 样 的 开销 。 但 
是 ， 和 标记 相 比 ， 将 对 象 复制 一 份 所 需要 的 开销 则 比 
较 大 ， 因 此 在 “存活 ”对 象 比 例 较 高 的 情况 下 ， 反 而 
会 比较 不 利 。 

















这 种 算法 的 另 一 个 好 处 是 它 














具有 局 部 性 〈Locality )。 在 复 氏 


(1) 
mm (A)——> ©) © 
根 NS 1 
© ©) 
(2) 
ms (A)——> (©) © 
sa p> 
© © 
mss (A) 
根 
(3) 


(4) 
-人 


加 
到 2 复制 收集 算法 




















旧 空 间 


新 空间 


旧 空 间 


新 空间 


别 收 集 过 程 中 ， 会 按照 对 象 被 引 


用 的 顺序 将 对 象 复制 到 新 空间 中 。 于 是 ， 关 系 较 近 的 对 象 被 放 在 距离 较 近 的 内 存 空间 中 的 可 能 








性 会 提高 ， 


能 也 能 够 得 到 提高 。 
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这 被 称 为 局 部 性 。 局 部 性 高 的 情况 下 ， 内 存 缓存 会 更 容易 有 效 运作 ， 程 序 的 运行 性 
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引用 计数 ( Reference Count ) 方式 是 GC 算法 中 最 简单 也 最 容易 实现 的 一 种 ， 它 和 标记 清除 
方式 差不多 是 在 同一 时 间 发 明 出 来 的 。 


它 的 基本 原理 是 ,在 每 个 对 象 中 保存 该 对 象 的 引用 计数 , 当 引 用 发 生 增 减 时 对 计数 进行 更 新 。 


引用 计数 的 增 减 ， 一 般 发 生 在 变量 赋值 、 对 象 内 容 更 新 、 函 数 结束 ( 局 部 变量 不 再 被 引用 ) 
等 时 间 点 。 当 一 个 对 象 的 引用 计数 变 为 0 时 ， 则 说 明 它 将 来 不 会 再 被 引用 ， 因 此 可 以 释放 相应 





的 内 存 空 间 。 
3 的 (1) 

















部 分 中 ， 所 有 对 象 中 都 保存 着 自己 被 多 (1) 








四 四 四 
少 个 其 他 对 象 进行 引用 的 数量 ( 引用 计数 )， 图 中 每 个 对 Se 
象 右上 角 的 数字 就 是 引用 计数 。 加 


图 中 (2) 部 分 中 ， 当 对 象 引用 发 生变 化 时 ,引用 计 。 (2) 0 


数 也 跟着 变化 。 





了 ， 于 是 对 象 D 的 引用 计数 变 为 0。 由 于 对 象 D 的 引用 





3 的 (3) 部 分 中 ,引用 计数 变 为 0 的 对 象 被 释放 ， 存 
活 ” 对 象 则 保留 了 下 来 。 大 家 应 该 注意 到 ， 在 整个 GC 器 
处 理 过 程 中 ， 并 不 需要 对 所 有 对 象 进行 扫描 。 


证 和 











在 这 里 ， 由 对 象 B 到 对 象 D 的 引用 失效 一 一 人 ( 忆 ) 
人 一 Mo 


计数 为 0， 因 此 由 对 象 D 到 对 象 C 和 下 的 引用 数 也 分 别 © 
相应 减少 。 结果， 对 象 E 的 引用 计数 也 变 为 0, 于 是 对 ”a en 


象 E 也 被 释放 掉 了 。 0 
© 





















































国 : 引用 计数 


实现 容易 是 引用 计数 算法 最 大 的 优点 。 标 记 清 除 和 复制 收集 这 些 GC 机 制 在 实现 上 都 有 一 


定 难度 ; 而 引 月 








过 类 似 的 机 制 ， 


目 计 数 方式 的 话 ， 凡 是 有 些 年 头 的 C++ 程序 员 (包括 我 在 内 )， 应 该 都 
可 以 说 这 种 算法 是 相当 具有 普遍 性 的 。 








曾经 实现 


除 此 之 外 ， 当 对 象 不 再 被 引用 的 瞬间 就 会 被 释放 ， 这 也 是 一 个 优点 。 其 他 的 GC 机 制 中 ， 
要 预测 一 个 对 象 何 时 会 被 释放 是 很 困难 的 ， 而 在 引用 计数 方式 中 则 是 立即 被 释放 的 。 而 且 ， 由 
于 释放 操作 是 针对 每 个 对 象 个 别 执行 的 , 因此 和 其 他 算法 相 比 , 由 GC 而 产生 的 中 断 时 间 ( Pause 
time ) 就 比较 得 ， 这 也 是 一 个 优点 。 

















饼 引 用 计数 方式 的 缺点 











男 一 方面 ,这 种 方式 也 有 缺点 。 引 用 计数 最 大 的 缺点 ,就 是 无 法 释放 循环 引用 的 对 象 ,图 4 中 ， 
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A .B.C 三 个 对 象 没有 被 其 他 对 象 引用 ,而 是 互相 之 间 循环 引用 ， 加 
因此 它们 的 引用 计数 永远 不 会 为 0， 结果 这 些 对 象 就 永远 不 会 a 
被 释放 。 od CS 
4 
引用 计数 的 第 二 个 缺点 ， 就 是 必须 在 引用 发 生 增 减 时 对 引 。 图 4 无 法 回收 ， 循 环 引 
用 计数 做 出 正确 的 增 减 ， 而 如 果 漏 掉 了 某 个 增 减 的 话 ， 就 会 引 
发 很 难 找到 原因 的 内 存 错误 。 引 用 数 忘 了 增加 的 话 ， 会 对 不 恰当 的 对 象 进行 释放 ， 而 引用 数 忘 
了 减少 的 话 ， 对 象 会 _ 直 残留 在 内 存 中 ， 从 而 导致 内 存 泄漏 。 如 果 语言 编译 器 本 身 对 引用 计数 
进行 管理 的 话 还 好 ， 和 否则 ， 如 果 是 手动 管理 引用 计数 的 话 ， 那 将 成 为 孕育 bug 的 温床 。 
























































最 后 一 个 缺点 就 是 ， 引 用 计数 管理 并 不 适合 并 行 处 理 。 如 果 多 个 线程 同时 对 引用 计数 进行 
增 减 的 话 ， 引 用 计数 的 值 就 可 能 会 产生 不 一 致 的 问题 〈 结果 则 会 导致 内 存 错误 )。 为 了 避免 这 种 
情况 的 发 生 ， 对 引用 计数 的 操作 必须 采用 独占 的 方式 来 进行 。 如 果 引 用 操作 频繁 发 生 ， 每 次 都 
要 使 用 加 锁 等 并 发 控制 机 制 的 话 ， 其 开销 也 是 不 可 小 遍 的 。 





























综 上 所 述 ， 引 用 计数 方式 的 原理 和 实现 虽然 简单 ， 但 缺点 也 很 多 ， 因 此 最 近 基本 上 不 再 使 
用 了 。 现 在 ， 依 然 采 用 引用 计数 方式 的 语言 主要 有 Perl 和 Python， 但 它们 为 了 避免 循环 引用 的 
问题 ， 都 配合 使 用 了 其 他 的 GC 机 制 。 这 些 语言 中 ，GC 基本 上 是 通过 引用 计数 方式 来 进行 的 ， 
但 偶尔 也 会 用 其 他 的 算法 来 执行 GC， 这 样 就 可 以 将 引用 计数 方式 无 法 回收 的 那些 对 象 处 理 掉 。 














饼 进 一 步 改 良 的 应 用 方式 




















GC 的 基本 算法 ,大 体 上 都 逃 不 出 上 述 三 种 方式 以 及 它们 的 衍生 品 。 现 在 ,通过 对 这 三 种 方 
式 进行 融合 ， 出 现 了 一 些 更 加 高 级 的 方式 。 这 里 ,我 们 介绍 一 下 其 中 最 有 代表 性 的 三 种 ， 即 分 
代 回 收 、 增 量 回收 和 并 行 回收 。 有 些 情况 下 ， 也 可 以 对 这 些 方 法 中 的 几 种 进行 组 合 使 用 。 








仿 分 代 回收 











首先 ， 我们 来 讲 讲 高 级 GC 技术 中 最 重要 的 一 种 ， 即 分 代 回 收 ( Generational GC )。 











由 于 GC 和 程序 处 理 的 本 质 是 无 关 的 ， 因 此 它 所 消耗 的 时 间 越 短 越 好 。 分 代 回 收 的 目的 ， 
正 是 为 了 在 程序 运行 期 间 ， 将 GC 所 消耗 的 时 间 尽 量 缩短 。 




















分 代 回收 的 基本 思路 ， 是 利用 了 一 般 性 程序 所 具备 的 性 质 ， 即 大 部 分 对 象 都 会 在 短 时 间 内 
成 为 垃圾 ， 而 经 过 一 定时 间 依然 存活 的 对 象 往往 拥有 较 长 的 寿命 。 如 果 寿 命 长 的 对 象 更 容易 存 
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活 下 来 ， 寿 命 短 的 对 象 则 会 被 很 快 废弃 ， 那 么 到 底 怎 样 做 才能 让 GC 变 得 更 加 高 效 呢 ? 如 果 对 
分 配 不 入 ,诞生 时 间 较 短 的 “年 轻 ” 对 象 进行 重点 扫描 ， 应 该 就 可 以 更 有 效 地 回收 大 部 分 垃圾 。 





在 分 代 回 收 中 ， 对 象 按 照 生成 时 间 进 行 分 代 ， 刚 刚 生成 不 久 的 年 轻 对 象 划 为 新 生 代 ( Young 
generation )， 而 存活 了 较 长 时 间 的 对 象 划 为 老生 代 ( Old generation )。 根 据 具体 实现 方式 的 不 同 ， 
可 能 还 会 划分 更 多 的 代 ， 在 这 里 为 了 讲解 方便 ， 我 们 就 先 限定 为 两 代 。 如 果 上 述 关 于 对 象 寿命 
的 假说 成 立 的 话 ， 那 么 只 要 仅仅 扫描 新 生 代 对 象 ， 就 可 以 回收 掉 废 弃 对 象 中 的 很 大 一 部 分 。 








像 这 种 只 扫描 新 生 代 对 象 的 回收 操作 ， 被 称 为 小 回收 (Minor GC )。 小 回收 的 具体 回收 步骤 
如 下 。 











首先 从 根 开 始 一 次 常规 扫描 ， 找 到 “存活 ”对 象 。 这 个 步骤 采用 标记 清除 或 者 是 复制 收集 
算法 都 可 以 ， 不 过 大 多 数 分 代 回 收 的 实现 都 采用 了 复制 收集 算法 。 需 要 注意 的 是 ， 在 扫描 的 过 
程 中 ， 如 果 遇 到 属于 老生 代 的 对 象 ， 则 不 对 该 对 象 继 续 进 行 递归 扫描 。 这 样 一 来 ， 需 要 扫描 的 
对 象 数量 就 会 大 幅 减少 。 























然后 ， 将 第 一 次 扫描 后 残留 下 来 的 对 象 划分 到 老生 代 。 具 体 来 说 ， 如 果 是 用 复制 收集 算法 
的 话 ， 只 要 将 复制 目标 空间 设置 为 老生 代 就 可 以 了 ; 而 用 标记 清除 算法 的 话 ， 则 大 多 采用 在 对 
象 上 设置 某 种 标志 的 方式 。 


























饼 对 来 自 老生 代 的 引用 进行 记录 





这 个 时 候 ， 问 题 出 现 了 ， 从 老生 代 对 象 “最 新 生 代 老生 代 
对 新 生 代 对 象 的 引用 怎么 办 呢 ? 如 果 只 扫描 新 ”== Ej 二 > Es 
生 代 区 域 的 话 ， 那 么 从 老生 代 对 新 生 代 的 引用 1) 
就 不 会 被 检测 到 。 这 样 一 来 ， 如 果 一 个 年 轻 的 emo 
对 象 只 有 来 自 老生 代 对 象 的 引用 ， 就 会 被 误 认 新 世代 老生 代 
为 已 经 “死亡 ”了 。 因 此 ， 在 分 代 回 收 中 , 会 记录 朱 ee 
对 对 象 的 更 新 进行 监视 ， 将 从 老生 代 对 新 生 代 (2 ， 国 oO 
的 引用 ， 记 录 在 一 个 叫做 记录 集 (remembered 六 WO—® 
set ) 的 表 中 ( 图 5)。 在 执行 小 回收 的 过 程 中 ， 图 5 分 代 回收 方式 中 的 小 回收 
这 个 记录 集 也 作为 一 个 根来 对 待 。 0 
要 让 分 代 回收 正确 工作 ， 必 须 使 记录 集 的 内 容 保 持 更 新 。 为 此 ， 在 老生 代 到 新 生 代 的 引用 
产生 的 瞬间 ， 就 必须 对 该 引用 进行 记录 ， 而 负责 执行 这 个 操作 的 子 程序 ， 需 要 被 嵌入 到 所 有 涉 
及 对 象 更 新 操作 的 地 方 。 
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这 个 负责 记录 引用 的 子 程序 是 这 样 工作 的 。 设 有 两 个 对 象 :A 和 B, 当 对 A 的 内 容 进行 改写 ， 
并 加 入 对 B 的 引用 时 ， 如 果 (D A 属于 老生 代 对 象 ，@@ B 属于 新 生 代 对 象 ， 则 将 该 引用 添加 到 记 
录 集 中 。 


这 种 检查 程序 需要 对 所 有 涉及 修改 对 象 内 容 的 地 方 进行 保护 ， 因 此 被 称 为 写 屏障 ( Write 
barrier )。 写 屏障 不 仅 用 于 分 代 回 收 ， 同 时 也 用 在 很 多 其 他 的 GC 算法 中 。 















































虽说 老生 代 区 域 中 的 对 象 一 般 来 说 寿命 都 比较 长 ， 但 也 决 不 是 “不 老 不 死 ” 的 。 随 着 程序 
的 运行 ， 老 生 代 区 域 中 的 “死亡 ”对 象 也 在 不 断 增加 。 为 了 避免 这 些 死亡 的 老生 代 对 象 白白 占 
用 内 存 空 间 ， 偶尔 需 要 对 包括 老生 代 区 域 在 内 的 全 部 区 域 进行 一 次 扫描 回收 。 像 这 样 以 全 部 区 
域 为 对 象 的 GC 操作 被 称 为 完全 回收 (Full GC ) 或 者 大 回收 ( Major GC )。 














分 代 回 收 通 过 减少 GC 中 扫描 的 对 象 数 量 ， 达 到 缩短 GC 带 来 的 平均 中 断 时 间 的 效果 。 不 
过 由 于 还 是 需要 进行 大 回收 ， 因 此 最 大 中 断 时 间 并 没有 得 到 什么 改善 。 从 吞吐 量 来 看 ， 在 对 象 
寿命 假说 能 够 成 立 的 程序 中 ， 由 于 扫描 对 象 数量 的 减少 ， 可 以 达到 非常 不 错 的 成 绩 。 但 是 ， 其 
性 能 会 被 程序 行为 、 分 代数 量 、 大 回收 触发 条 件 等 因素 大 幅度 左右 。 

















仿 增 量 回收 
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在 对 实时 性 要 求 很 高 的 程序 中 ， 比 起 缩短 GC 的 平均 中 断 时 间 ， 往 往 更 重视 缩短 GC 的 最 
大 中 断 时 间 。 例 如 ， 在 机 絮 人 的 姿势 控制 程序 中 ， 如 果 因 为 GC 而 让 控制 程序 中 断 了 0.1 秒 ， 机 
需 人 可 能 就 摔 倒 了 。 或 者 ， 如 果 车 辆 制 动 控制 程序 因为 GC 而 延迟 响应 的 话 ， 后 果 也 是 不 堪 设 
想 的 。 























在 这 些 对 实时 性 要 求 很 高 的 程序 中 ， 必 须 能 够 对 GC 所 产生 的 中 断 时 间 做 出 预测 。 例 如 ， 
可 以 将 “最 多 只 能 中 断 10 毫秒 ”作为 附加 条 件 。 

在 一 般 的 GC 算法 中 ， 作 出 这 样 的 保证 是 不 可 能 的 ， 因 为 GC 产生 的 中 断 时 间 与 对 象 的 数 
量 和 状态 有 关 。 因 此 ， 为 了 维持 程序 的 实时 性 ， 不 等 到 GC 全 部 完成 ， 而 是 将 GC 操作 细 分 成 
多 个 部 分 逐一 执行 。 这 种 方式 被 称 为 增 量 回收 ( Incremental GC )。 








在 增 量 回收 中 ， 由 于 GC 过 程 是 渐进 的 ， 在 回收 过 程 中 程序 本 身 会 继续 运行 ， 对 象 之 间 的 
引用 关系 也 可 能 会 发 生变 化 。 如 果 已 经 完成 扫描 和 标记 的 对 象 被 修改 ， 对 新 的 对 象 产生 了 引用 ， 
这 个 新 对 象 就 不 会 被 标记 ， 明 明 是 “存活 ”对 象 却 被 回收 掉 了 。 














在 增 量 回收 中 为 了 避免 这 样 的 问题 ， 和 分 代 回 收 一 样 也 采用 了 写 屏障 。 当 已 经 被 标记 的 对 
象 的 引用 关系 发 生变 化 时 ， 通 过 写 屏 障 会 将 新 被 引用 的 对 象 作 为 扫描 的 起 始点 记录 下 来 。 
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2.4 ”内存 管 理 


由 于 增 量 回 收 的 过 程 是 分 步 渐进 式 的 ， 可 以 将 中 断 时 间 控 制 在 一 定 长 度 之 内 。 男 一 方面 ， 
由 于 中 断 操作 需要 消耗 一 定 的 时 间 ，GC 所 消耗 的 总 时 间 就 会 相应 增加 ， 正 所 谓 有 得 必 有 失 。 





匀 并 行 回收 




















最 近 的 计算 机 中 ， 一 块 世 片上 搭载 多 个 CPU 核心 的 多 核 处 理 器 已 经 逐渐 普及 。 不 仅 是 服务 
器 ， 就 连 个 人 桌面 电脑 中 ， 多 核 CPU 也 已 经 成 了 家 常 便 饭 。 例 如 美国 英特尔 公司 的 Core i7 就 
拥有 6 核 12 个 线程 。 








在 这 样 的 环境 中 ， 就 需要 通过 利用 多 线程 来 充分 发 挥 多 CPU 的 性 能 。 并 行 回 收 正 是 通过 最 
大 限度 利用 多 CPU 的 处 理 能 力 来 进行 GC 操作 的 一 种 方式 。 


并 行 回收 的 基本 原理 是 ， 是 在 原 有 的 程序 运行 的 同时 进行 GC 操作 ， 这 一 点 和 增 量 回收 是 
。 不过， 相对 于 在 一 个 CPU 上 进行 GC 任务 分 割 的 增 量 回收 来 说 ， 并 行 回收 可 以 利用 多 


相似 的 



































CPU 的 性 能 , 尽 可 能 让 这 些 GC 任务 并 行 ( 同时 ) 进行 。 由 于 软件 运行 和 GC 操作 是 同时 进行 的 ， 


因此 就 





因此 在 











会 遇 到 和 增 量 回收 相同 的 问题 。 为 了 解决 这 个 问题 ， 并 行 回收 也 需要 用 写 屏障 来 对 当前 
的 状态 信息 保持 更 新 。 不 过 ,让 GC 操作 完全 并 行 , 而 一 点 都 不 影响 原 有 程序 的 运行 ,是 做 不 到 的 。 











GC 操作 的 某 些 特定 阶段 ， 还 是 需要 暂停 原 有 程序 的 运行 。 


在 多 核 化 快速 发 展 的 现在 ， 并行 回 收 也 成 了 一 个 非常 重要 的 话题 ， 它 的 算法 也 在 不 断 进行 
改善 。 在 硬件 系统 的 文 持 下 ， 无 需 中 断 原 有 程序 的 完全 并 行 回收 天 也 已 经 呼之欲出 。 今 后 ， 这 
个 领域 相当 值得 期 待 。 








仿 GC 大 统一 理论 








像 标 记 清 除 和 复制 收集 这 样 ， 从 根 开始 进行 扫描 以 判断 对 象 生死 的 算法 ,被 称 为 跟踪 回收 
( Tracing GC )。 相 对 的 ， 引 用 计数 算法 则 是 当 对 象 之 间 的 引用 关系 发 生变 化 时 ， 通 过 对 引用 计数 
进行 更 新 来 判定 对 象 生死 的 。 


美 











国 IBM 公司 沃 森 人 研究 中 心 的 David F. Bacon 等 人 ， 于 2004 年 发 表 了 一 篇 题 为 “垃圾 回收 





的 统一 理论 ”( A Unified Theory of Garbage Collection ) 的 论文 ， 文 中 冰 述 了 一 种 理论 ， 即 : 任何 
一 种 GC 算法 , 都 是 跟踪 回收 和 引用 计数 回收 两 种 思路 的 组 合 。 两 者 的 关系 正如 “物质 ”和 “ 反 
物质 "一 样 ,是 相互 对 立 的 。 对 其 中 一 方 进行 改善 的 技术 之 中 ,必然 存在 对 另 一 方 进行 改善 的 技术 ， 
而 其 结果 只 是 两 者 的 组 合 而 已 。 
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第 多 章 “编程 语言 的 过 去 、 现 在 和 未 来 


例如 ， 用 于 改善 分 代 回 收 和 增 量 回收 等 跟踪 回收 算法 的 写 屏障 机 制 ， 从 对 引用 状态 变化 进 
行 记录 这 个 角度 来 看 ， 就 是 吸收 了 引用 计数 回收 的 思路 。 相 对 的 ， 引 用 计数 算法 也 吸收 了 分 代 
回收 算法 的 思路 而 进行 了 一 些 改 进 ， 如 来 自 局 部 变量 的 引用 变化 不 改变 引用 计数 等 。 











Unified Theory 来 源 于 物理 学 中 的 大 统一 理论 ( Grand Unified Theory， 简 称 GUT ) 一 词 。 正 
如 试图 统一 解释 自然 界 中 四 种 基本 作用 力 的 大 统一 理论 一 样 ， 这 个 试图 统一 解释 跟踪 回收 和 引 
用 计数 回收 的 理论 ， 也 就 被 命名 为 GC 大 统一 理论 了 。 
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SSS 














不 知道 大 家 有 没有 听 说 过 “正常 化 偏见 ”( normalcy bias ) 这 个 词 。 所 谓 正常 化 偏见 指 的 是 
人 们 的 一 种 心理 倾向 ， 对 于 一 些 偶然 发 生 的 情况 ,一旦 发 生 了 便 会 不 自觉 地 忽略 其 危害 。 














在 之 前 发 生 的 大 地 震 " 中 ， 虽 然 发 布 了 海啸 预警 ， 但 据说 还 是 有 很 多 人 ， 由 于 觉得 “这 次 
也 没什么 大 不 了 的 “~ “海啸 不 会 袭击 这 里 的 ”而 不 乎 遇难。 我 认为 ， 这 并 不 是 说 那些 人 很 思春 ， 
而 是 说 明 人 类 是 很 容易 受到 “正常 化 偏见 ”这 种 心理 倾向 的 影响 的 。 如 果 遇 到 同样 的 状况 ， 换 
做 你 和 我 的 话 ， 很 可 能 也 会 做 出 同样 错误 的 判断 。 




















食 “一定 没 问题 的 ” 








程序 员 也 是 人 ， 同 样 无 法 逃脱 正常 化 偏见 的 影响 。 对 于 程序 运行 中 所 发 生 的 异常 情况 ， 总 

得 “这 种 情况 一 般 不 会 出 现 的 "“ 所 以 不 解决 也 没关系 "。 例 如 ， 大 家 可 能 会 这 样 想 :“ 配 
置 文件 肯定 会 被 安装 进去 的 ， 因 此 不 必 考 虑 配置 文件 不 存在 的 情况 ”,“ 网 络 通 信 中 丢 包 之 类 的 
问题 TCP 层 会 帮忙 搞定 的 ， 因 此 应 该 不 用 考虑 通信 失败 的 情况 ”。 总 是 把 情况 往 好 的 方面 设想 ， 
这 样 的 心理 在 程序 员 中 很 常见 。 





























然而 ， 正 如 墨 菲 定律 ”所 说 的 ， 即 便 是 极 少 会 发 生 的 情况 ， 只 要 有 发 生 的 可 能 性 ， 早 晚 是 会 
发 生 的 。 说 不 定 就 有 人 不 小 心 把 配置 文件 手动 删除 了 ， 也 说 不 定 就 在 网 络 通信 过 程 中 路 由 器 断 
电 了 ， 计 划 永 远 赶 不 上 变化 。 一 旦 发 生 异 党 情况， 就 该 怪 自 己 平时 没 做 好 应 对 了 。 哎呀， 早 知 
道 当初 就 该 好 好 应 对 的 "， 现 在 才 意 识 到 这 一 点 ， 也 只 能 是 马后炮 了 。 




















软件 开发 的 历史 ， 就 是 和 bug 斗争 的 历史 。 最 早 的 bug 是 由 于 一 只 具 虫 bug ) 卡 在 组 成 计 
算 机 的 继电器 中 所 引发 的 。 在 开发 软件 的 过 程 中 ， 几 乎 不 会 有 人 想到 会 有 虫子 卡 在 电路 里 面 吧 ， 
这 上 真是 一 个 意外 。 不 过 ， 在 软件 开发 中 ， 还 是 必须 对 各 种 事态 都 做 出 预计 才 行 。 














Q@ 这 里 指 的 是 2011 年 3 月 11 日 发 生 的 日 本 东北 地 方太 平 洋 近海 地 震 ， 震 级 达到 9.0 级 。 
@ 墨 非 定律 (Murphy’s Law )， 原 来 的 表述 是 “凡是 可 能 出 错 的 事 都 会 出 错 ”( Anything that can go wrong will go 
wrong )， 意 思 是 说 ， 任 何 一 个 事件 只 要 发 生 的 概率 大 于 零 ， 就 不 能 假设 它 不 会 发 生 。 
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信用 特殊 返回 值 表示 错误 





那么 ， 作 为 例题 ， 我 们 来 举 一 个 非常 简单 的 
打开 文件 操作 的 例子 。 在 C 语言 中 ， 将 文件 以 读 


#include 《stdio.h> 


人 mi 
方式 打开 的 程序 如 图 1 所 示 。 main() 
让 
C 语言 的 打开 文件 函数 fopen， 会 将 位 于 指定 PUNE*f ropenmG /Davh/ to nl 
i 





路 径 的 文件 以 指定 的 模式 ( 读 / 写 /追加 ) 打开 。 
打开 成 功 时 ， 返 回 指向 FILE 结构 体 的 指针 ; 打 ec ee ne 
开 失 败 时 ， 则 返回 NULL。 























else { 
让 fopen 返回 NULL 的 原因 有 很 多 ， 全 部 列 puts("file open succeeded"); 
举 出 来 实在 太 难 了 。 下 面 举 几 个 有 代表 性 的 例子 ) 
口 文 件 不 存在 图 1 C 语言 中 的 文件 打开 操作 


口 没有 权限 访问 该 文件 

口 该 进程 中 已 打开 的 文件 数量 太 多 

口 指定 的 路 径 不 是 一 个 文件 而 是 一 个 目录 
口 内 核 内 存 不 足 

口 磁盘 已 满 

口 指定 了 非法 的 路 径 地 址 











上 面 这 些 只 不 过 是 失败 原因 的 一 部 分 而 已 ， 感 觉 很 头 大 吧 。 








在 C 语言 中 ， 表 示 错 误 的 主要 方式 是 通过 “特殊 返回 值 ”。 大 多 数 情 况 下 ， 和 fopen 一 样 ， 
通过 返回 NULL 来 表示 错误 。 


信 容 易 忽略 错误 处 理 











使 用 特殊 返回 值 这 个 方法 不 需要 编程 语言 的 支持 ， 是 一 种 非常 简便 的 方法 ， 但 它 有 两 个 重 
大 的 缺点 。 




















一 ， 由 于 对 错误 的 检测 不 是 强制 进行 的 ， 可 能 会 出 现 没 有 注意 到 发 生 了 错误 而 继续 运行 
程序 的 情况 。 如 果 没 有 注意 到 文件 打开 失败 ， 依 然 去 访问 FILE 结构 体 的 话 ， 整 个 程序 就 会 出 错 
崩溃 。 仅 仅 因 为 要 打开 的 文件 不 存在 就 月 省 的 程序 ， 实 在 是 太 差 劲 了 。 
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2.5 异常 处 理 





对 于 文件 不 存在 这 种 比较 常见 的 状况 ， 一 般 来 说 大 概 不 会 丽 于 应 对 。 不 过 ， 发 生 概率 比较 
低 的 意外 情况 却 很 容易 被 忽略 。 例 如 ， 分配 内 存 的 函数 malloc， 在 内 存 不 足 时 会 返回 NULL 以 
表示 错误 ， 这 一 点 在 文档 上 写 得 清 清楚 楚 ， 却 还 是 有 很 多 程序 没有 做 出 应 对 。 如 果 写 一 个 总 
是 返回 NULL 的 malloc 函数 连接 上 去 的 话 ， 就 会 恢 奇 地 发 现 居 然 有 那么 多 程序 根本 就 不 检查 
malloc 的 返回 值 。 





第 二 ， 原 本 的 程序 容易 被 错误 处 理 埋 没 。 错 误 处 理 是 对 意外 性 的 异常 事态 所 做 的 应 对 ， 并 
不 是 我 们 本 来 想 做 的 事 。 然 而 ， 正 如 之 前 讲 过 的 ， 我 们 又 不 能 忽略 错误 的 存在 ， 于 是 本 来 只 是 
配角 的 错误 处 理 部 分 就 会 在 程序 中 喧 宾 夺 主 。 

















我 想 执行 的 是 一 系列 简单 的 操作 : 打开 文件 ， 从 文件 中 逐 行 读 取 内 容 ， 加 工 之 后 输出 到 标 
准 输出 设备 ( stdout )。 而 实际 的 代码 却 变 成 了 十 分 繁琐 的 内 容 : 打开 文件 …… 打 开 了 吗 ? 没 打 
开 的 话 显示 错误 信息 然后 程序 结束 ; 读 取 1 行内 容 …… 读 取 成 功 了 吗 ? 没 成 功 的 话 ， 如 果 到 了 
文件 末尾 则 程序 结束 , 如 果 没 到 文件 未 尾 , 则 忽略 该 行 ; 将 读 取 的 内 容 进 行 加 工 , 然后 输出 结果 ; 
加 工 过 程 中 如 果 发 生 错 误 ， 别 忘 了 对 错误 进行 处 理 …… 




















你 有 没有 觉得 太 麻 烦 了 ? 这 种 感觉 太 正常 了 。 不 过 ， 受 过 良好 训练 的 C 语言 程序 员 则 不 会 
有 任何 怨言 ， 因 为 他 们 多 年 以 来 一 直 都 在 重复 着 这 样 的 辛苦 工作 。 








人 Ruby 中 的 异常 处 理 
那么 ， 对 于 这 样 的 “错误 地 狱 ”， 编 程 语言 方面 又 提供 了 怎样 的 支持 呢 ? 
正如 上 面 所 总 结 的 ， 其 实 问题 点 有 两 个 : 没有 检查 错误 就 继续 运行 ， 错 误 处 理 将 原本 的 程 
序 埋 没 。 





于 是 ,在 比较 新 的 语言 中 ， 采 用 了 称 为 异常 (exception ) 的 机 制 ， 以 减轻 错误 处 理 的 负担 。 
一 且 发 生意 外 情况 ， 程 序 中 就 会 产生 异常 ， 并 同时 中 断 程序 运行 ， 回 漳 到 当前 过 程 的 调用 者 。 
经 过 逐 级 回 湖 ， 到 达 程 序 顶 层 之 后 ， 输 出 错误 信息 ， 并 停止 程序 的 运行 。 不 过 ， 如 果 明 确 声明 
了 “在 这 里 捕获 异常 ”的 话 ， 异 常 就 会 被 捕获 ， 并 进行 错误 处 理 。 




















2 是 将 图 1 程序 所 执行 的 操作 ， 用 Ruby f = open("/path/to/file", "r") 
来 编写 的 程序 。 当 调用 用 来 打开 文件 的 open 方法 puts("file open succeeded") 
时 ， 会 返回 一 个 File 对 象 。 如 果 发 生 错 误 ， open ”图 2 Ruby 中 的 文件 打开 操作 
的 执行 就 会 中 断 。 在 这 里 我 们 没有 对 捕获 异常 进 
行 声明 ， 因 此 产生 的 异常 就 不 会 被 捕获 ， 程 序 会 显示 错误 信息 ， 并 终止 运行 。 异 常事 态 发 生 时 


























图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


xs 编程 语言 的 过 去 、 现 在 和 未 来 





的 运行 终止 和 错误 信息 的 输出 都 是 自动 完成 的 ， 











begin 
这 样 一 来 程序 便 可 以 集中 完成 它 的 本 职工 作 。 f ~ open("/path/to/file", "r") 
puts("file open succeeded") 


rescue 


在 Ruby 中 ， 对 异常 的 捕捉 使 用 begin 语句 来 puts("file open failed") 
完成 。begin 所 包围 的 代码 中 如 果 产 生 了 异常 ， 则 Sm 
会 执行 rescue 部 分 的 代码 ( 图 3 )。 图 3 ”Ruby 中 的 异常 处 理 


























由 于 有 了 这 样 的 异常 处 理 机 制 ， 在 C 语言 流派 中 的 显 式 错误 检查 所 具有 的 那 两 个 问题 得 到 
了 一 定 的 缓解 。 也 就 是 说 ， 当 意外 状况 发 生 时 ， 通 过 自动 中 断 程序 运行 的 方式 ， 避 免 了 每 进行 
一 步 操作 都 要 显 式 地 检查 错误 ， 从 而 也 就 避免 了 程序 中 充满 错误 检查 代码 的 问题 。 









































不 过 ， 当 产生 异常 时 也 不 能 总 是 让 程序 结束 运行 ， 当 显 式 声明 需要 进行 错误 处 理 时 ， 可 以 
恢复 产生 的 错误 ， 并 让 程序 继续 运行 。 
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下 面 我 们 来 看 看 如 何人 为 产生 异常 。 产 生 异 常 ， 可 以 使 用 raise 方法 。 在 Ruby 中 ，raise 并 
不 是 一 个 保留 字 ， 而 是 一 个 方法 。raise 方法 被 调用 时 ， 会 创建 一 个 用 来 表示 异常 的 对 象 ， 并 中 
断 程 序 运 行 。 在 这 个 过 程 中 ， 如 果 存 在 与 异常 对 象 匹配 的 rescue 代码 ， 则 跳 转 到 该 处 进行 异常 
处 理 。 





raise 方法 的 调用 有 好 几 种 方式 ， 可 以 根据 状况 选择 合适 的 调用 方式 。 首 先 ， 最 基本 的 方式 
是 仅 指定 一 条 错误 信息 。 


raise "Something bad happens" 


这 条 语句 会 产生 一 个 RuntimeError 异常 。 如 果 不 在 意 异 常 的 类 型 ， 只 要 表达 出 有 错误 信息 
就 可 以 的 话 ， 用 这 种 方式 是 没有 问题 的 。 








下 面 这 种 方式 同时 指定 了 异常 类 和 错误 信息 。 
raise TypeError, "wrong type given" 

这 里 指定 了 Exception 类 的 一 个 子 类 作为 异常 类 。raise 会 在 内 部 创建 一 个 指定 类 的 实例 ， 并 
中 断 当前 程序 的 运行 。 第 2 种 方式 中 ， 还 有 一 个 可 选 的 第 3 参数 ， 这 个 参数 可 以 传递 一 个 数组 ， 
用 于 保存 回溯 ( backtrace， 即 从 哪个 函数 的 第 几 行 进行 的 调用 ) 信息 。 





如 果 要 在 rescue 部 分 中 重新 产生 异常 ， 可 以 在 raise 方法 中 指定 一 个 异常 对 象 。 
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raise exc 


在 这 种 方式 中 ， 包 含 回溯 在 内 的 异常 信息 都 被 保存 在 对 象 中 ， 从 而 可 以 将 异常 抛 给 位 于 其 
上 层 的 代码 进行 处 理 。 





还 有 最 后 一 种 方式 ， 即 可 以 省 略 所 有 的 参数 ， 直 接 调 用 raise 方法。 如 果 在 rescue 中 用 这 种 
方式 进行 调用 的 话 ， 会 重新 产生 最 近 产 生 过 的 一 个 异常 。 如 果 在 rescue 外 面 的 话 ， 则 会 产生 一 
个 错误 信息 为 空 的 RuntimeError。 

















匀 更 高 级 的 异常 处 理 


用 于 异常 处 理 的 rescue， 会 捕获 到 begin 所 包围 的 区 域 中 产生 的 异常 ， 但 在 这 个 范围 内 可 能 
产生 的 异常 往往 不 止 一 种 。 通 过 在 rescue 后 面 指定 异常 的 种 类 (类 )， 就 可 以 针对 不 同 种 类 的 异 
常 分 别 做 出 不 同 的 应 对 ( 图 4 )。 更 详细 的 异常 信息 可 以 通过 在 “=>” 后 面 指定 变量 名 来 获取 。 






































产生 异常 时 的 应 对 方法 ， 原 则 上 分 为 两 种 。 一 种 是 中 断 运 行 。 由 于 异常 产生 时 会 跳 转 到 
rescue， 因 此 可 以 说 中 断 运 行 是 异常 处 理 的 默认 方式 。 





当然 ， 有 些 情 况 下 ， 我 们 并 不 希望 整个 程序 都 停止 运行 。 例 如 ， 编 辑 需 要 读 取 一 个 文件 ， 
即便 指定 文件 名 不 存在 ， 也 不 能 光 弹 出 一 条 错误 
Ri ee ys Si begi 
信息 就 退出 了 吧 ? 这 种 情况 下 ， 应 该 通过 异常 处 理 。 open("/path/to/file",， nn") 
程序 弹出 一 个 警告 对 话 框 ， 然 后 返回 并 重新 接受 用 puts("file open succeeded™ 
ee de poe A esieuen Eo ENOENI > Ne 
户 输入 才 对 。 这 其 实 也 是 中 断 运行 的 一 个 变种 。 puts("file open failed by ENOENT") 

rescue ArgumentError => e 


男 一 种 应 对 方法 ， 是 消除 产生 异常 的 原因 puts("file open failed by 
、 ce 、 ArgumentError") 
并 重 试 。 为 此 ，Ruby 中 有 一 个 retry 语句 ， 在 end 
rescue 中 调用 retry 的 话 ， 会 跳 转 回 相 应 的 begin ”图 4 对 多 个 异常 的 处 理 


处 重新 运行 。 




















— 















































begin 
图 5 中 的 程序 就 是 应 用 retry 的 一 个 例子 。 TODen( Emo roo i we 


puts("file open succeeded" 


这 次 我 们 用 open 方法 以 写 模 式 打开 一 个 名 为 / rescue Errno::ENOENT => e 


— 











tmp/foo/file 的 文件 。 然 而 ，/tmp/foo 这 个 目录 puts("file open failed by ENOENT") 
ee Dir.mkdir("/tmp/foo") 
不 存在 的 话 ， 就 会 产生 异常 。 于 是 在 rescue 中 ， retry 


rescue ArgumentError 


我 们 用 mkdir 创建 该 目录 ， 然 后 再 执行 retry。 这 人 
样 一 来 ， 程 序 会 返回 begin 的 部 分 重新 运行 ， 这 ArgumentError") 

ee 二 d 
次 open 就 可 以 成 功 打开 文件 了 。 












































图 5 调用 retry 进行 重 试 


图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 75 


第 多 章 编程 语言 的 过 去 、 现 在 和 未 来 


通过 retry 可 以 在 异常 处 理 中 实现 重 试 的 操作 ， 非 常 





begin 
方便 。 不 过 它 也 有 一 个 缺点 ， 那 就 是 如 果 在 retry 之 前 没 # 可 能 会 产生 前 常 的 处 理 
本 、 rescue 
有 仔细 检查 是 否 对 产生 异常 的 条 件 进行 了 充分 应 对 的 话 ，  # 异常 处 理 程序 .输出 消息 
训 会 已 徙 乓 puts "exception happened" 
就 很 有 可 能 陷入 死 循 环 。 ee 


raise 


在 异常 处 理 完成 之 后 ， 有 时 还 需要 转移 到 上 层 的 异常 。 end 

处 理 程序 做 进一步 处 理 。 刚 才 已 经 讲 过 ， 在 rescue 中 直接 ” 图 6 重新 产生 异常 
调用 raise 就 可 以 重新 产生 异常 (图 6)。 例 如 ， 如 果 要 直 

接 显示 顶层 错误 信息 的 话 ， 就 可 以 使 用 这 种 方式 。 


















































仿 Ruby 中 的 后 处 理 保证 


76 











rescue 是 用 来 在 产生 异常 的 时 候 进 行 错误 处 理 的 ， 除 此 之 外 ， 还 有 一 种 方式 ， 可 以 执行 一 
些 无 论 是 否 产 生 异 常 都 需要 进行 的 一 些 清理 工作 。 




















以 打开 文件 的 操作 为 例 ， 当 人 处理 完成 后 ， 无 论 是 正常 结束 ， 还 是 产生 了 异常 ， 都 必须 将 文 
件 关闭 。 





在 Ruby 中 , 使 用 open 方法 可 以 保证 将 打开 open("ypathytoyfile"，"rn) do |f| 
的 文件 进行 关闭 操作 〈 图 7)。 如 果 在 调用 open # 对 f 的 处 理 
方法 时 附加 一 个 代码 块 ， 当 代码 块 执行 完毕 后 ， 
就 会 自动 关闭 文件 。 加 7， 带 代码 块 的 open 























那么 ， 这 样 的 机 制 如 果 要 自己 来 实现 的 话 ， 该 如 何 做 呢 ? 
在 Ruby 中 ， 可 以 使 用 ensure。 在 begin 部 





def open_close(path, mode, &block) 


分 中 如 果 指 定 了 ensure， 则 begin 部 分 执行 完毕 ~ open(path, mode) 
后 必定 会 执行 ensure 部 分 。 这 里 所 说 的 “执行 ee 
完毕 "， 包 括 执行 到 代码 末端 而 正常 结束 的 情况 ， ensure 


f.close 


也 包括 产生 异常 ， 或 者 通过 break 、return 等 中 途 end 
跳出 的 情况 。 只 要 使 用 ensure， 就 可 以 实现 和 带 end 
代码 块 的 open 调用 同样 的 功能 (图 8 )。 加 8 ”ensure 必定 会 被 执行 


























ensure 的 起 源 是 来 自 Lisp 的 unwind-protect 图 数 。 这 个 函数 名 的 意思 是 ， 当 访问 磁带 设备 
出 错时 ， 防 止 ( protect ) 出 现 磁带 没有 回 卷 unwind ) 的 情况 。 
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饼 其 他 语言 中 的 异 章 处 理 


2.5 异常 处 理 























刚才 我 们 讲 了 Ruby 中 的 异常 处 理 ,当然 ,其 他 语言 中 也 具备 异常 处 理 的 功能 。 例 如 在 Java 中 ， 





对 应 关系 是 这 样 的 : 


begin 一 try 
rescue 一 catch 
ensure 一 finally 





在 C++ 中 try 和 catch 是 和 上 面相 同 的 ， 不 过 没有 finally。 在 C++ 中， 可 以 通过 栈 对 象 的 析 
构 函 数 ( 函数 结束 时 必定 会 被 调用 ) 来 实现 相当 于 ensure 的 功能 。 


信 Java 的 检查 型 异常 





Java 的 异常 处 理 具有 其 他 语言 所 不 
具备 的 特性 ， 即 每 个 方法 都 需要 显 式 地 











声明 自己 可 能 会 产生 什么 样 类 型 的 异 





常 。 


9 是 Java 中 的 方法 定义 (节选 )。 在 数 
据 类 型 、 方 法 名 和 参数 之 后 ， 有 一 段 形 


void open_file() throws 
FileNotFoundException { 

return new FileReader("/path/to/file"); 
} 


图 9 Java 的 方法 定义 ( 带 异 常 ) 





























如 throws 异常 的 代码 ， 用 于 声明 可 能 会 产生 的 异常 。 





并 且 , 在 Java 中 调用 某 个 方法 时 ， 对 于 在 该 方法 定义 中 所 声明 的 异常 ， 如 果 没 有 用 异常 处 




















理 来 进行 捕获 ， 且 没有 用 throws 继续 抛 给 上 层 的 话 ， 就 会 产生 一 个 编译 错误 ， 因 为 异常 已 经 成 


为 方法 的 数据 类 型 的 一 部 分 了 。 像 这 样 的 异常 被 称 为 检查 型 异常 ( checked exception )。 在 广泛 
使 用 的 编程 语言 中 ，Java 应 该 是 第 一 个 采用 检查 型 异常 的 语言 。 




















检查 型 异常 可 以 由 编译 右 对 遗漏 捕获 的 异常 进行 检查 ,从 这 个 角度 来 说 ,这 个 功能 相当 有 用 ， 


























也 是 符合 Java 的 一 贯 策略 的 ， 正 如 在 Java 中 采用 静态 数据 类 型 来 主动 规避 类 型 不 匹配 的 思路 是 


一 样 的 。 




















不 过 ， 检 查 型 异常 也 遭 到 了 一 些 批判 。 异 常 之 所 以 被 称 为 异常 ， 本 来 就 因为 它 很 难事 移 预 


料 到 。 明 知 如 此 ， 还 非 要 在 代码 中 强 
在 是 太 痛 可 了 。 

















押 怕 








E 地 事先 对 异常 做 好 声明 ， 以 避免 产生 编译 错误 ， 这 实 








在 有 些 情况 下 ，Java 的 方法 会 抛 出 如 SQLException 和 IOException 这 样 的 异常 ， 尽 管 实际 
上 这 些 错误 跟 数 据 库 和 文件 没什么 关系 。 很 显然 ， 这 是 由 于 在 实现 这 些 功能 时 所 调用 的 方法 抛 
此 





异常 ， 但 将 这 些 实现 的 详细 信息 展现 给 用 户 是 完全 没有 必要 的 。 
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尽管 如 此 ， 如 果 每 次 都 一 定 要 按照 方法 的 含义 去 更 换 异常 的 类 型 ， 或 者 为 了 避免 编译 右 出 
错 而 硬 着 头皮 写 代 码 去 捕获 异常 ， 这 就 显得 本 末 倒 置 了 。 数 据 类 型 的 问题 也 是 一 样 ， 碰 到 编译 
错误 ， 也 就 是 把 编译 需 给 “ 惹 毛 了 ”。 如 果 说 因为 真正 的 程序 错误 惹 毛 了 编译 需 也 就 算 了 ， 要 是 
仅仅 因为 异常 的 类 型 稍稍 不 合 就 大 发 雷霆 的 话 ， 那 这 个 编译 需 也 大 神经 过 敏 了 。 而 且 ， 如 果 只 
是 为 了 迁就 编译 需 就 非 要 编写 一 大 堆 异 常 处 理 代 码 的 话 ， 那 异常 本 身 的 便利 性 就 全 都 月 费 了 。 





















































话说 ， 大 家 二 万 别 误会 ， 检 查 型 异常 也 是 有 优点 的 。 只 不 过 ， 从 我 个 人 来 看 ， 比 起 一 个 十 
分 严格 的 ， 像 对 错误 零 容忍 的 老师 一 样 的 编译 器 来 说 ， 我 还 是 更 喜欢 Ruby 这 样 相 对 比较 宽容 的 


语言 吧 。 
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异常 也 有 比较 特别 的 用 法 ， 为 此 我 们 来 介绍 一 种 叫做 Icon 的 语言 。Icon 是 由 美国 亚利桑那 
大 学 开发 的 ,用 于 字符 串 模 板 匹 配 等 处 理 的 编程 语言 。 它 诞生 于 1977 年 ,是 一 种 非常 古老 的 语言 。 














在 Icon 中 ,异常 (在 Icon 中 称 为 失败 ) 是 通过 “ 假 ”来 表示 的 。 也 就 是 说 ， 当 对 表达 式 求 
值 时 ， 如 果 没 有 产生 异常 ， 则 结果 为 真 ， 反 之 则 结果 为 假 。 因 此 ， 像 : 

















if 表达 式 
这 样 的 条 件 判断 ， 并 不 是 Ruby 等 一 般 语 言 中 “表达 式 结果 为 真 时 ”的 判断 方式 ， 而 是 “表达 式 
求 值 成 功 时 (没有 产生 异常 的 意思 。 也 就 是 说 , 像 : 
































a 
这 样 一 个 简单 的 表达 式 ， 在 一 般 语言 中 它 的 判断 方式 为 : 将 a 和 b 进行 比较 ， 当 b 较 大 时 为 真 ， 
两 者 相等 或 b 较 小 时 为 假 。 而 在 Icon 中 它 的 判断 方式 为 : 将 a 和 b 进行 比较 ， 两 者 相等 或 b 较 
小 时 产生 异常 ， 否 则 返回 b 的 值 。 因 此 ， 在 Icon 中 : 








a < Da 
这 样 的 表达 式 是 比较 正当 的 。 对 这 个 表达 式 进行 求 值 时 ， 由 于 a <b 的 比较 结果 为 真 时 ， 表 达 式 
的 求 值 结果 为 b， 则 接 下 来 会 对 b <c 进行 求 值 。 如 果 最 开始 的 比较 结果 为 假 ， 则 整个 表达 式 的 
求 值 就 失败 了 ， 后面 的 比较 操作 实际 上 并 没有 被 执行 。 这 种 方式 真 的 非常 独特 。 

















在 Ruby 等 以 真 假 来 求 值 的 语言 中 ， 要 得 到 相同 的 结果 ， 必 须要 写成 这 样 : 
a < p<ae 


说 句 题 外 话 ， 在 Python 中 其 实 也 是 可 以 写成 : 
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oan< bore 
这 样 的 ， 不 过 这 并 不 是 说 Python 具备 像 Icon 这 样 的 运行 模块 ， 而 上 
续 的 比较 运算 符 ， 最 终 还 是 要 将 表达 式 转换 成 : 





是 其 语法 分 析 需 可 以 识别 连 


~/ 





a<b&&bx<ec 
这 样 的 形式 。 
在 以 异常 为 基础 的 Ion 中 ， 从 文件 中 逐 行 读 取 内 容 并 输出 的 程序 写成 下 面 这 样 : 
while write(read()) 


好 像 语序 有 点 奇怪 吗 ? Icon 中 就 是 这 样 写 的 。 








首先 ，read 函数 从 标准 输入 读 取 1 行 数 据 ， 当 读 取 成 功 时 则 返回 读 取 到 的 字符 串 。write 函 
数 将 通过 参数 得 到 的 字符 串 写 到 标准 输出 。 通 过 这 样 的 方式 ， 就 完成 了 “ 读 取 一 行内 容 并 输出 ” 
的 操作 。 


读 懂 这 上段 程序 的 关键 ， 在 于 将 这 个 读 取 一 行 的 操作 作为 while 循环 的 条 件 判断 来 使 用 。Icon 
的 while 语句 的 逻辑 是 “执行 循环 直到 条 件 判断 表达 式 失 败 "， 因 此 ，write(read()) 这 个 操作 将 被 
循环 执行 ， 直 到 失败 为 止 ， 而 在 读 取 到 文件 末尾 时 ，read 函数 会 失败 ， 这 个 失败 会 被 while 语 
句 的 条 件 判 断 捕获 ， 从 而 结束 循环 。 习 惯 了 一 般 语 言 的 人 ， 可 能 会 感觉 很 异样 ， 因 为 这 个 while 
循环 并 没有 循环 体 , 却 可 以 执行 所 需 的 操作 , 不 过 当 你 明白 了 其 中 的 逻辑 , 也 就 觉得 顺理成章 了 。 


























此 外 , 在 Icon 中 ， 还 有 一 种 叫做 every 的 控制 结构 ， 它 可 以 对 所 有 的 组 合 进行 尝试 ， 直 到 
失败 为 止 。Icon 的 这 种 求 值 方式 ， 由 于 包含 了 “继续 求 值 到 达到 某 种 目标 为 止 ”的 含义 ， 因 此 
被 称 为 目标 导向 求 值 (Goal-directed evaluation )。 例 如 ; 





every write((1 to 3) + (2 to 3)) 


表示 将 1 到 3 的 数 ， 和 2 到 3 的 数 ， 用 不 同 的 排列 组 合 来 输出 它们 的 合 ， 即 1+2、1+3 、2+2、 
2+3、3+2、3+3， 运 行 结果 为 : 


Ono 











在 一 般 语言 中 ,这样 的 运算 需要 通过 两 层 循环 来 完成 。 运 用 异常 和 目标 导向 求 值 ， 可 以 在 
无 显 式 循环 的 情况 下 ， 对 排列 组 合 运算 进行 描述 ， 这 一 点 实在 是 很 有 意思 。 
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综 上 所 述 ， 在 Icon 中 ， 蜡 常 和 真 假 值 的 组 合 非常 强大 ， 应 用 范围 也 很 广 ， 颇 具 魅 力 。 在 最 
初 设计 Ruby 的 时 候 ， 我 也 曾经 认真 思考 过 ， 到 底 要 不 要 采用 Icon 这 样 的 真 假 求 值 机 制 ， 结 果 
却 还 是 采用 了 用 nil 和 false 表示 “ 假 ” ， 其 余 都 表示 “ 真 ” 这 样 的 正统 方式 。 当 时 ， 如 果 做 出 另 
一 种 不 同 的 判断 的 话 ， 也 许 Ruby 这 个 语言 的 性 质 就 会 发 生 很 大 的 改变 呢 。 












































饼 Eiffel 的 Design by Contract 





从 异常 这 个 角度 来 看 ， 还 有 一 种 很 有 意思 的 语言 ， 叫 做 Eiffel1”。Eiffiel 中 强调 了 一 种 称 为 
Design by Contract ( 契约 式 设 计 ， 人 简称 DbC ) 的 概念 。 即 所 有 的 方法 (在 Eiffel 中 称 为 子 程序 ) 
都 必须 规定 执行 前 需要 满足 的 条 件 和 执行 后 需要 满足 的 条 件 , 当 条 件 不 能 满足 时 , 就 会 产生 异常 。 








WO 了 
这 样 的 思路 , 就 是 将 对 子 程序 的 调用 , 看 作 是 一 种 “只 Eigpei 中 .开关 的 是 注 各 





要 兑现 满足 先 验 条 件 的 约定 ， 后 验 条 件 就 必定 得 到 满足 ” 2 
毛 弥 command is 
的 契约 。 requi re 
- 先 验 条 件 


Eiffel 的 子 程序 定义 代码 如 图 10 所 示 。Eiffel 中 异常 ee 人 
没有 类 型 的 区 别 ， 这 也 是 强调 DbC 设计 方针 的 结果 ， 和 。。 。 ”全部 灾 量 声 











其 他 的 语言 有 所 不 同 。 -- 子 程序 正文 
ensure 
es . -- 后 验 条 件 
大 家 应 该 可 以 看 出 » Eiffel 的 异常 处 理 中 所 使 用 的 保 rescue 
留 字 (ensure 、rescue 、retry )， 在 Ruby 中 得 到 了 继承 。 具 3 


- 通过 retry 返 回 d0 重 新 执行 


体 的 含义 可 能 有 所 不 同 ， 但 Ruby 开发 早期 确实 参考 了 end 
Eiffel 中 的 保留 字 。 图 10 ”Eiffel 的 方法 定义 




















尺 异 常 与 错误 值 





像 C 语言 这 样 完 全 不 支持 错误 处 理 的 语言 中 ， 异 常 状 况 只 能 通过 错误 值 来 表示 。 那 么 ,在 
4 甸 异 常 功 能 的 语言 中 ， 是 不 是 所 有 的 错误 都 可 以 通过 异常 来 表示 呢 ? 





























以 我 的 一 已 之 见 , 大 部 分 情况 下 都 应 该 使 用 异常 ,不 过 也 有 一 些 情况 下 用 错误 值 更 好 。 例 如 ， 
在 Ruby 中 也 有 一 些 情况 是 需要 用 错误 值 的 。 








对 Hash 的 访问 算是 一 个 例子 。 在 Ruby 中 ， 访 问 Hash 时 如 果 key 不 存在 的 话 ， 并 不 会 产 
生 有 异常 ， 而 是 会 返回 nil ( 在 Python 中 则 会 产生 异常 )。 





Q@ Eiffel 是 一 种 面向 对 象 编 程 语 言 ， 诞 生 于 1986 年 ， 设 计 者 是 Bertrand Meyer ( 1950 一 )。 
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hash[key] # => 不 存在 时 返回 ni] 





也 就 是 说 ， 这 要 看 对 访问 Hash 时 key 不 存在 这 一 情况 到 底 能 做 出 何 种 程度 的 预计 。 如 果 
key 不 存在 的 情况 完全 是 超出 预计 的 ， 错 误 就 应 该 作为 异常 来 处 理 ; 反之 ， 如 果 key 不 存在 的 情 
况 在 某 种 程度 上 是 预计 范围 内 的 ， 那 么 就 应 该 返回 错误 值 。 


























不 过 ， 在 某 些 情况 下 ， 我 们 希望 将 key 不 存在 的 情况 作为 错误 来 产生 异常 ， 并 且 保证 要 将 
其 捕获 。 在 这 种 情况 下 ， 可 以 使 用 Hash 类 中 的 feteh 方法 ， 用 这 个 方法 的 话 ， 当 key 不 存在 时 
就 会 产生 异常 。 





依 小 结 








对 于 程序 员 来 说 ,错误 处 理 虽然 不 希望 发 生 , 但 也 不 能 忽视 ,是 个 很 麻烦 的 事情 。 异 常 处 
理 功能 就 是 为 了 将 程序 员 进行 错误 处 理 的 负担 尽量 减轻 而 产生 的 一 种 机 制 。21 世纪 的 编程 语言 
中 ， 绝 大 部 分 都 具备 了 异常 处 理 功能 ， 我 想 这 也 是 编程 语言 实现 了 进化 的 一 个 证 据 吧 。 


山 H 
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2 SIR 


2.6 ” 闭 包 


> 


Ce 


SS 


有 一 次 ,我 参加 了 一 个 叫做 “Ruby 集训 ”的 活动 , 那 是 一 个 由 想 学 习 Ruby 的 年 轻 人 参加 的 ， 
历时 5 天 4 夜 的 Ruby 编程 学 习 活动 ,对 参加 者 来 说 是 一 次 非常 宝贵 的 经 验 。 第 1 天 是 入 门 培训 ， 
第 2 天 将 Ruby 系统 学 习 一 遍 ， 然 后 第 3 天 到 第 4 天 分 组 各 自制 作 一 个 相当 规模 游戏 ， 并 在 最 后 
一 天 进行 展示 ， 可 以 说 是 一 次 十 分 军事 化 的 集训 活动 。 我 只 到 现场 去 了 大 概 两 天 ， 不 过 那些 勇 
给 我 留 下 了 深刻 的 印象 。 




















于 向 高 难度 座 题 发 起 挑战 的 年 轻 人 还 是 

















在 那 次 集训 活动 中 ， 有 一 位 参加 者 问 :“ 闭 包 是 什么 ” ”担任 讲师 的 是 我 的 学 生 ， 不 过 他 也 
没有 做 出 准确 的 理解 ， 因 此 借 这 个 机 会 ， 我 想 仔细 给 大 家 讲 一 讲 关 于 闭 包 的 话题 。 





人 函数 对 旬 














有 一 些 编程 语言 中 提供 了 函数 对 象 这 一 概念 ， 我 知道 有 些 人 把 这 个 叫做 闭 包 ( Closure )， 但 

















MN 


[Nae 











其 实 这 种 理解 是 不 准确 的 ， 因 为 函数 对 象 不 一 定 是 闭 包 。 不 过 话说 回来 ,要 理解 闭 包 ， 首 先 要 
LE 解 函 数 对 象 ， 那 么 我 们 先 从 函数 对 象 开始 讲 起 吧 。 


所 谓 函 数 对 象 ， 顾名思义 ,就 是 作为 对 象 来 使 用 的 函数 。 不 过 ， 这 里 的 对 象 不 一 定 是 面向 


对 象 中 所 指 的 那个 对 象 ， 而 更 像 是 编程 i 

















例如 ，C 语言 中 ， 我 们 可 以 获取 
一 个 函数 的 指针 ， 并 通过 指针 间接 调 
用 该 函数 。 这 就 是 C 语言 概念 中 的 对 
象 (图 1)。 





人 、 
二 





一 般 的 C 语言 程序 员 应 该 不 
用 到 函数 指针 ， 因 此 我 们 还 是 讲 
下 吧 。 


大 
解 


第 7 行 , main 国 数 的 开头 有 个 不 
太 常 见 的 写法 : 


语 


ONmONPODPDC 





言 所 操作 的 数据 这 个 意思 。 























#include <stdio.h> 
mime wo x eG Um 
int three(int x) {return x*3;} 


mnemonic hom am vy 


了 
int (x*times)(Cint) ; 
Tle I 2 
if (argc == 1) times = two; 


else times = three; 
pn (ee times(d dn neimesn yD, 
} 











C 语言 的 函数 对 象 
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int (*times)(int); 
这 是 对 指针 型 变量 times 的 声明 , 它 的 意思 是 : 变量 times, 是 指向 一 个 拥有 
并 返回 int 值 的 函数 的 指针 。 
第 10 行 开始 的 放 语 句 ， 意 思 是 当 传递 给 程序 的 命令 行 参 数 为 零 个 时 。 当 参数 为 零 个 时 ， 将 
函数 two ( 的 指针 ) 赋值 给 变量 times; 当 存 在 一 个 以 上 的 参数 时 ， 则 将 函数 three 的 指针 赋值 给 





一 个 int 型 参数 ， 


times。 
综 上 所 述 ， 当 程序 没有 命令 行 参数 时 ， 则 输出 
times(2) = 4 
有 命令 行 参数 时 ， 则 输出 


times(2) = 6 


到 这 里 ， 大 家 应 该 对 C 语言 中 的 函数 指针 有 所 了 解 了 吧 ? 




















重要 的 是 ， 这 种 函数 对 象 对 我 们 的 编程 有 什么 用 。 如 有 果 什 么 用 都 没有 的 话 ， 那 就 只 能 是 语 
言 设计 上 的 一 种 玩具 罢了 。 

函数 对 象 , 也 就 是 将 函数 作为 值 来 利用 的 方法 ,其 最 大 的 用 途 就 是 高 阶 函 数 。 所 谓 高 阶 函 数 ， 
就 是 用 函数 作为 参数 的 函数 。 光 这 样 说 大 家 可 能 不 太 明 白 ， 我 们 来 通过 例子 看 一 看 。 

我 们 来 设想 一 个 对 数组 进行 排序 的 函数 。 这 个 函数 是 用 C 语言 编写 的 ,在 API 设计 上 ， 
该 写成 下 面 这 样 : 



































wonideesor tmnt as ent szens 

函数 接受 一 个 大 小 为 size 的 整数 数组 a， 并 对 其 内 容 进 行 排序 

不 过 ， 这 个 sort 函数 有 两 个 缺点 。 第 一 ， 它 只 能 对 整数 数组 进行 排序 ; 第 二 ， 排 序 条 件 无 
法 从 外 部 进行 指定 。 例 如 ， 我 们 希望 对 整数 数组 进行 逆序 排序 ， 或 者 是 希望 对 一 个 字符 串 数组 
按 abc 顺序 、 辞 由 顺序 进行 排序 等 等 ， 用 这 个 函数 就 无 法 做 到 。 也 就 是 说 ， 这 个 sort 函数 是 缺 
乏 通用 性 的 。 
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另 一 方面 ， 在 C 语言 标准 
void qsort(void *base，Size t nmemb, size t size, 
库 中 ， 却 提供 了 一 个 具有 通用 性 int (*compar)(const void *, const void *)); 
的 排序 函数 ， 它 的 名 字 叫 qsort， 攻 
API 定义 如 图 2 所 示 。 











2 qsort 函数 








那么 ， 这 个 通用 排序 函数 qsort 是 如 何 克 服 上 述 两 个 缺点 的 呢 ? 秘密 就 隐藏 在 qsort 函数 的 
参数 中 。 

首先 ,我 们 来 看 看 第 1 个 参数 base, 它 的 类 型 是 void*。sort 的 第 1 个 参数 是 限定 为 整数 数组 的 ， 
相 比 之 下 ，qsort 的 参数 则 表示 可 以 接受 任何 类 型 的 数组 。 这 样 就 避免 了 对 数组 类 型 的 限制 。 





接 下 来 , 第 2、 第 3 个 参数 表示 数组 的 大 小 。 在 sort 中 只 传递 了 数组 的 大 小 〈 元素 的 数量 )， 
而 qsort 中 的 第 2 个 参数 nmemb 表示 元 素数 量 ,第 3 个 参数 size 则 表示 每 个 元 素 的 大 小 ,这 样 一 来 ， 
相对 于 只 能 对 整数 数组 进行 排序 的 sort 函数 来 说 ，qsort 则 可 以 对 任何 数据 类 型 的 数组 进行 排序 。 





、 示 右 和 个 i 
人 不过， 还 有 一 个 重要 的 问 #include 《stdio.h> 

题 ， 那 就 是 如 何 对 任意 类 型 数 #include <stdlib.h> 

组 中 的 元 素 进行 比较 呢 ? 要 解 int icmp(const void x*a, const void *b) 

决 这 个 问题 ， 就 要 靠 qsort 函 { 








i 罗 int x = *(int*)a; 
数 的 第 4 个 参数 compar 了 。 i YS ee 
compar 是 指向 一 个 带 两 个 if (x =— y) return 0; 





i i 、 i We > MW MEU Se 
参数 的 函数 的 指针 。 这 个 函数 return 1; 


接受 数组 中 两 个 元 素 的 指针 ， 1 


并 以 整数 的 形式 返回 比较 结 int main(int argc, char *xargv) 
上 


果 。 当 两 个 元 素 相 等 时 ,返回 0， int ary[] = {4,7,1,2}:; 
当 a 比 b 大 时 返回 正 整数 当 const size t alen = sizeof(ary)/sizeof(int); 
” Stillze 划 中 


a 比 b 小 时 返回 负 整数 。 


for (i=0; i<alen; i++) { 











qsort 的 实际 应 用 例如 图 Dm a ld nan 
} 
3 所 示 。 在 这 里 我 们 定义 了 一 asomt(arv len Zeon nt cm 
、 Zk om 0 <oamen it 大 ( 
个 名 为 icemp 的 汕 数 ， 它 可 以 [oe eol = oN el 
对 整数 进行 逆序 比较 。 结 果 ， 
qsort 函数 就 会 将 数组 中 的 元 素 二 
按 降序 (从 大 到 小 ) 排序 。 图 3 qdsort 函数 的 应 用 实例 
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大 家 现在 应 该 已 经 明白 了 ，qsort 函数 是 通过 将 另 一 个 函数 作为 参数 使 用 ， 来 实现 通用 排序 
功能 的 。 高 阶 函 数 这 样 的 方式 ， 通 过 将 一 部 分 处 理 以 函数 对 象 的 形式 转移 到 外 部 ， 从 而 实现 了 
算法 的 通用 化 。 




















饼 范 数 指针 的 局 限 











好 ,关于 (C 语言 的 ) 函数 指针 以 及 将 其 用 作 参 数 的 高 阶 函 数 的 强大 之 处 ,我们 已 经 讲 过 了 ， 
下 面 我 们 来 讲 讲 它 的 局 限 吧 。 








作为 例题 ， 我 们 来 设想 一 下 ， 对 结构 体 构 成 的 链表 (Linked list ) 及 对 遍历 处 理 ， 用 高 阶 函 
数 来 进行 抽象 化 。 


4 是 用 一 般 的 循环 和 高 阶 函 数 两 种 方式 对 链表 进行 帝 历 的 程序 。 图 4 的 程序 由 于 C 语言 
性 质 的 缘故 显得 很 长 ， 其 本 质 的 部 分 是 从 main 函数 第 38 行 开 始 的 。 








从 第 39 行 开始 的 while 语句 没有 使 用 高 阶 函 数 ， 而 是 直接 用 循环 来 实现 的 。 受 过 良好 训练 
的 C 语言 程序 员 可 能 觉得 没什么 ,不 过 要 看 懂 41 行 的 











I mext 


等 写法 ,需要 具备 关于 链表 内 部 原理 的 知识 ， 其 实 这 些 涉 及 底层 的 部 分 ， 最 好 能 够 隐藏 起 来 。 








男 一 方面 ,第 43 行 开始 用 到 foreach 水 数 的 部 分 ， 则 是 非常 清晰 简洁 的 。 只 不 过 ,受到 C 
语言 语法 的 制约 ， 这 个 函数 必须 在 远离 循环 体 的 地 方 单独 进行 定义 ， 这 是 C 语言 函数 指针 的 第 
一 个 缺点 。 大 多 数 语言 中 ， 函 数 都 可 以 在 需要 调用 的 地 方 当 场 定 义 ， 因 此 这 个 缺点 是 C 语言 所 
固有 的 。 

















不 过 和 另 一 个 重要 的 缺点 相 比 ， 这 第 一 个 缺点 简直 算 不 上 是 缺点 。 如 果 运 行 这 个 程序 的 话 ， 
结果 会 是 下 面 这 样 的 。 





node(0) 
node(1) 
node(2) 
node(3) 
node(?) 
node(?) 
node(?) 
node(?) 


OPDPOOOPDPO 











前 面 4 行 是 while 语 句 的 输出 结果 ,后 面 4 行 是 foreach 的 输出 结果 ,while 语句 的 输出 结果 中 ， 


图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


第 多 章 “编程 语言 的 过 去 、 现 在 和 未 来 





可 以 显示 出 索引 ， 而 foreach 的 部 分 则 只 能 显示 “?”。 这 是 因为 和 while 语句 不 同 ，foreach 的 循 


环 实际 上 是 在 另 一 函数 中 执行 的 ， 
量 i 是 一 个 全 局 变量 就 不 存在 这 个 





pin = 


因此 无 法 从 函数 中 访问 位 于 外 部 的 局 部 变量 i。 如 果 变 
问题 了 ， 不 过 为 了 这 个 目的 而 使 用 副作用 很 大 的 全 局 变量 也 


当然 


Nyy 














并 不 是 一 个 好 主意 。 因 此 ,“ 对 外 商 


/GOD 














(局 部 ) 变量 的 访问 ”是 C 语言 函数 指针 的 最 大 弱点 。 


已 
里 


nm denstdnoah> 
2| #include <stdlib.h> 
3 
4| struct node { /* 结构 体 定义 */ 
5 struct node *next; 
6 Te el 
|; 
8 
9| typedef void (x*func_t)(int); /* 品 数 指针 类 型 */ 
10 
Al Om /* 循环 用 函数 */ 
atomeach sb ebenmoden st me 
二 | 渤 
14 while (list) { 
ES ULG Ses Mall yg 
16 Este st Snexbe 
到 } 
| J 
9 
20| void /* 循环 主体 函数 */ 
fi 
22ll 装 
23 pramnw ft Ge niodel ee dN ne ns 
24| } 
25 
26| main() /* main 吕 数 */ 
2 
28 Si uctCeanoden st Om 
29 AG: 
30 /* 准备 开始 */ 
3 To Ce ee sp A /* 创建 链表 */ 
$2 1 = malloc(sizeof(struct node)); 
89 > va = 
34 1->next = list; 
35 SG I: 
36 } 
3 
38 由 ETSE5 /* 例题 主体 */ 
39 while (1) { /* While 循环 */ 
40 pine nodel wd dn i Svals 
41 1 = 1->next; 
42 } 
43 homeaehl st /* foreach 循 环 */ 
44| } 
图 4 高 阶 函 数 循环 
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饼 作 用 域 : 变量 可 见 范 围 














现在 我 们 已 经 了 解 了 C 语言 提供 的 函数 指针 的 缺点 ,于 是 ,为 了 克服 这 些 缺点 而 出 现 的 功能 ， 
就 是 本 次 的 主题 一 一 闭 包 。 


我 想 现在 大 家 已 经 理解 了 函数 对 象 ， 下 面 我 们 来 讲解 一 下 闭 包 。 话说 ， 要 讲解 闭 包 ， 必 须 
使 用 一 种 支持 闭 包 的 语言 才 行 ， 因 此 在 这 里 我 们 用 JavaScript 来 讲解 。 上 表 定 有 人 会 问 ， 为 什么 不 


用 Ruby 呢 ? 关于 这 一 点 ， 我 们 稍 后 再 讲 。 



































首先 ， 为 了 帮助 大 家 理解 财 包 ， 我 们 先 来 介绍 两 个 术语 : 作用 域 (Scope ) 和 生存 周期 


( Extent )。 





作用 域 指 的 是 变量 的 有 效 范 围 ， 也 就 是 茶 个 变量 可 以 被 访问 的 范围 。 在 JavaScript 中 ,保留 
字 var 所 表示 的 变量 声明 所 在 的 最 内 侧 代 码 块 就 是 作用 域 的 单位 ( 图 5 )， 而 没有 进行 显 式 声明 
的 变量 就 是 全 局 变量 。 作 用 域 是 铭 套 的 ， 因 此 位 于 内 侧 的 代码 块 可 以 访问 以 其 自身 为 作用 域 的 
变量 ， 以 及 以 外 侧 代 码 块 为 作用 域 的 变量 。 


另外 ， 大 家 别 忘 了 创建 匿名 函数 对 象 的 语法 。 在 JavaScript 中 是 通过 下 面 的 语法 来 创建 函数 
对 象 的 : 


























ve Caitom es 
5 中 我 们 将 匿名 函数 赋值 给 了 一 个 变量 ， 如 果 不 赋 值 而 直接 作为 参数 传递 也 是 可 以 的 。 
当然 ， 这 个 函数 对 象 也 有 自己 的 作用 域 。 


























var a= 1; // a 是 全 局 变量 “| a、9 的 作用 域 
function foo() { 
Var be 2 // b 只 在 foo 中 可 见 “|b、f 的 作用 域 
d= De // g 是 全 局 变量 
Var fumetona ee 
Vanmec 7 // C 只 在 该 函数 内 可 见 1] c 的 作用 域 
return a+b+c  ”// a、b 和 c 都 可 见 
J 
i; // 调用 函数 对 象 f 一 





} | 
妈 5 ”JavaScript 中 的 作用 域 


由 于 JavaScript 中 可 以 直接 定义 函数 对 象 ， 因 此 像 图 4 那样 应 用 foreach 的 程序 ， 用 
JavaScript 就 可 以 更 加 直接 地 编写 出 来 ,将 图 4 的 本 质 部 分 用 JavaScript 来 改写 的 程序 如 图 6 所 示 。 











re 
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nunetaoneronmeachls ene 
while (list) { 
Fume se Val 
list = list.next; 


} 
} 


vanes mun 
for (var 1=0: i<4; 
est (Vann 


} 


Te) 


exst ns: 


var i = 0; 
// 从 函数 对 象 中 访问 外 部 变 
foreach(1ist， 





页 





6 高 阶 函 数 循环 








人 


// 循环 高 阶 函 数 


// 变量 声明 
// 1ist 初 始 化 


// i 初始 化 


二 








这 里 值得 注意 的 是 ,作为 foreach 参数 的 函数 对 象 ,是 可 以 访问 在 外 部 声明 的 变量 i 的 。 结 





C 语言 版 的 foreach 函数 无 法 实现 的 索引 显示 功能 
能 够 对 外 部 变量 进行 访问 (引用 、 更 新 )， 


导 上 述 
bE 就 会 出 平 意 料 了 。 











按照 作用 域 的 思路 ， 可 能 大 家 觉得 
男 外 一 个 概念 一 一 生存 周期 ， 结 有 果 可 外 
尺 生存 周期 ， 变量 的 存在 范围 


EE， 在 这 里 就 可 以 实现 了 。 因 此 ， 从 本 
是 闭 包 的 构成 要 件 之 一 。 


术 闭 包 的 性 质 也 是 理所当然 的 。 不 过 


数 对 象 中 








， 如 果 我 们 加 上 




















所 谓 生 存 周期 ， 就 是 变量 的 寿命 。 相 对 于 表示 程序 中 变量 可 见 范 围 的 作用 域 来 说 ， 生 存 周 



































期 这 个 概念 指 的 是 一 个 变量 可 以 在 多 长 的 周期 范围 内 存在 并 被 能 够 被 访问 。 要 搞 清楚 这 个 概念 ， 
我 们 还 是 得 看 看 实例 。 

图 7 的 例子 是 一 个 个 返回 函数 对 function extent() { 
象 的 函数 ， 即 extent 这 个 函数 的 返 va a // 局 部 变量 
回 值 是 一 个 函数 对 象 。 函 数 对 象 会 ny 人 
对 extent 中 的 一 个 局 部 变量 n 进行 console.10g("n="+n); 
累加 ， 并 显示 它 的 值 。 } 

f = extent(); // 返回 函数 对 象 

那么 ， 这 个 程序 实际 运行 的 情 f(); // n=1 

况 会 如 何 呢 ? fC, // n=2 
变量 的 生存 周期 

extent() 执行 后 会 返回 函数 对 象 ， 
我 们 将 其 研 值 给 一 个 变量 。 这 个 函数 变量 在 每 次 被 执行 时 ， 局 部 变量 就 会 被 更 新 ， 从 而 输出 逐 
次 累加 的 结果 。 
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号 ? 这 里 不 觉得 有 点 怪 吗 ? 


局 部 变量 n 是 在 extent 函数 中 声明 的 ， 而 extent 函数 已 经 执行 完毕 了 啊 。 变 量 脱离 了 作用 
域 之 后 不 是 应 该 就 消失 了 吗 ? 不 过 ， 就 这 个 运行 结果 来 看 ， 即 便 在 函数 执行 完毕 之 后 ， 局 部 变 
量 n 貌似 还 在 某 个 地 方 继续 存活 着 。 

这 就 是 生命 周期 。 也 就 是 说 ， 这 个 从 属于 外 部 作用 域 中 的 局 部 变量 ,被 函数 对 象 给 “封闭 ” 
在 里 面 了 。 闭 包 ( Closure ) 这 个 词 原本 就 是 封闭 的 意思 。 被 封闭 起 来 的 变量 的 寿命 ， 与 封闭 它 
的 函数 对 象 寿命 相等 。 也 就 是 说 ， 当 封闭 这 个 变量 的 函数 对 和 象 不 再 被 访问 ， 被 垃圾 回收 器 回收 
掉 时 ， 这 个 变量 的 寿命 也 就 同时 终结 


现在 大 家 明白 闭 包 的 定义 了 吧 。 在 函数 对 象 中 ， 将 局 部 变量 这 一 环境 封闭 起 来 的 结构 被 称 
为 团 包 。 因 此 ，C 语言 的 函数 指针 并 不 是 闭 包 ，JavaScript 的 函数 对 象 才 是 闭 包 。 
























































信 闭 包 与 面向 对 象 


在 图 7 的 程序 中 ， 当 函数 每 次 被 执行 时 ， 作 为 隐藏 上 下 文 的 局 部 变量 n 就 会 被 引用 和 更 新 。 
也 就 是 说 ， 这 意味 着 函数 ( 过 程 ) 与 数据 结合 起 来 了 。 

“过 程 与 数据 的 结合 ”是 形容 面向 对 象 中 的 “对 象 ”时 经 党 使 用 的 表达 。 对 象 是 在 数据 中 以 
方法 的 形式 内 含 了 过 程 ， 而 闭 包 则 是 在 ictjon extentt) 
过 程 中 以 环境 的 形式 内 含 了 数据 。 即 ， return {val: 0， 


ca uneenomn 












































对 象 和 闭 包 是 同一 事物 的 正 反 两 面 。 所 人 
谓 同 一 事物 的 正 反 两 面 ， 就 是 说 使 用 其 这 eomsoleslog( veal ths val 
中 的 一 种 方式 ， 就 可 以 实现 男 一 种 方式 } 

能 够 实现 的 功能 ?。 例 如 图 7 的 程序 ，。 tnt ,0 
如 果 用 JavaScript 的 面向 对 象 功 能 来 实 f.call(); // val=2 
现 的 话 ， 就 成 了 图 8 中 的 样子 。 图 8 通过 面向 对 象 来 实现 






































加 Ruby 的 函数 对 象 


到 此 为 止 ， 我 们 在 例子 中 使 用 的 语言 都 是 JavaScript， 那 为 什么 不 用 我 最 擅长 的 Ruby 语言 
呢 ?7 下 面 我 来 说 说 理由 吧 。 





@ 准确 地 说 ， 对 象 可 以 拥有 多 个 过 程 ， 而 闭 包 只 能 拥有 一 个 。 但 是 ， 闭 包 中 可 以 将 相当 于 过 程 名 的 符号 作为 参数 
进行 传递 ， 通 过 内 部 分 支 ， 实 际 上 也 可 以 提供 过 程 的 功能 。( 原 书 注 ) 
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最 大 的 一 个 理由 是 ，Ruby 语言 中 是 没有 函数 这 个 概念 的 。 作 为 纯粹 面向 对 象 的 语言 ，Ruby 
中 的 一 切 过 程 都 是 从 属于 对 象 的 方法 ， 而 并 不 存在 独立 于 对 象 之 外 的 函数 。 但 是 ，Ruby 有 具备 
和 函数 对 象 相同 功能 的 Proc( 过程 ) 对 象 ， 在 实际 应 用 上 和 函数 对 象 的 用 法 是 差不多 的 。 不 过 ， 
这 样 一 来 讲解 就 会 变 得 很 麻烦 ， 因 此 我 们 便 采 用 了 具备 简单 函数 对 象 功 能 的 JavaScript。 












































为 了 向 大 家 演示 一 下 Ruby 








def extent 
也 能 实现 和 JavaScript 相同 的 功 We # 
和 A sr lambda { # 过 程 天 达 式 
能 ， 我 们 将 图 7 的 程序 用 Ruby n+=1 4 对 mn 的 访问 
改写 了 一 下 ， 如 图 9 所 示 。 和 

end 

将 图 7 和 图 9 对比 一 下 ,， 值 f = extent(); # 返回 函数 对 象 

得 注音 的 且 中 建 六 ean #n=1 
得 注意 的 是 ， 在 Ruby 中 创建 过 pe 0 


程 对 象 需要 使 用 lambda{…} 表达 
式 ， 且 调用 过 程 对 象 不 能 只 加 上 
一 对 括号 ， 而 是 必须 通过 call 方法 进行 显 式 调用 。 
































到 9 Ruby 的 变量 生存 周期 

















在 Ruby 1.9 中 ,为 了 对 函数 型 编程 提供 支持 ，lambda 可 以 用 ~> 表达 式 来 替代 ， 此 外 call 
方法 的 调用 也 可 以 省 略 成 了 0 的 形式 ， 只 不 过 f 后 面 的 那个 加 点 还 必须 要 写 ， 这 一 点 挺 踪 憾 的 。 





仿 Ruby 与 JavaScript 的 区 别 
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从 函数 这 个 角度 来 看 ,Ruby 和 JavaScript 的 区 别 还 是 很 大 的 ,关于 这 一 点 我 们 来 详细 说 说 吧 。 


正如 之 前 所 讲 过 的 ，Ruby 中 只 有 方法 而 没有 函数 ， 而 过 程 对 象 是 可 以 用 类 似 函 数 的 方式 来 
使 用 的 。 由 于 过 程 对 象 并 不 是 函数 ， 因 此 需要 调用 call 方法 ,但 除 此 之 外 ， 像 闭 包 等 其 他 语言 
的 函数 对 象 所 具备 的 性 质 ， 过 程 对 象 也 都 具备 。 另 一 方面 ，JavaScript 中 有 荫 数 ， 自 然 可 以 作为 
对 象 来 引用 (图 7 )。 但 是 ，JavaScript 中 方法 与 也 数 的 区 别 很 模糊 ， 同 样 一 个 函数 ， 在 作为 通常 
函数 调用 时 ， 和 作为 对 象 的 方法 调用 时 ，this 的 值 会 发 生变 化 ( 图 10 )。 









































funeton 
console.1og(this ) ; 


} 

# 直接 调用 ff 

PCY HseoloDal le 
Ob = oo # 将 f 交 为 方法 

# 将 f 作 为 方法 来 调用 

O00 Hh ns oy 














图 10 ”JavaScript 的 this 
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2.6 闭 包 


仿 Lisp-1 与 Lisp-2 





Ruby 和 JavaScript 的 区 别 还 有 一 点 ， 那 就 是 访问 方法 成 员 的 行为 方式 。 例 如 ， 假设 Ruby 

和 JavaScript 的 程序 中 都 有 一 个 名 为 obj 的 对 象 ， 两 者 都 拥有 一 个 名 为 m 的 方法 。 这 时 ， 同 样 
是 访问 : 
obj.m 


Ruby 和 JavaScript 的 行为 是 有 很 大 差异 的 。 在 Ruby 中 ， 这 行 代 码 表示 对 m 方法 进行 无 参 
数 调用 ， 而 在 JavaScript 中 则 表示 返回 实现 m 方 法 的 孔 数 对 象 ， 而 如 果 要 进行 无 参数 调用 的 话 ， 
括号 是 不 能 省 略 的 ， 如 ; 

















obj.m() 


也 就 是 说 ，JavaScript 中 由 圆 点 所 引导 的 访问 代表 对 属性 的 引用 ， 将 函数 作为 属性 值 返回 的 
就 是 方法 ， 而 加 上 括号 就 可 以 对 其 进行 调用 。 




















另 一 方面 ，Ruby 中 圆 点 所 引导 的 访问 只 不 过 是 对 方法 的 调用 而 已 ， 加 不 加 括号 ， 是 不 影响 
方法 调用 这 一 行为 的 。 在 Ruby 中 , 如 果 要 获取 实现 该 方法 的 过 程 对 象 , 则 需要 使 用 method 方法 
( 表 1)。 





表 1 ”Ruby 和 JavaScript 的 方法 访问 



































Ruby JavaScript 
方法 调用 ( 无 参数 ) obj.m objmO) 
方法 调用 ( 有 参数 ) obj.m(1) obj.m(1) 
方法 获取 obj.method(:m) obj.m 








光 从 这 张 表 来 看 ， 会 给 人 一 种 JavaScript 整体 上 比较 简洁 的 印象 ， 而 实际 上 ，JavaScript 对 
获取 方法 实现 这 一 不 会 频繁 执行 的 操作 ， 反 而 赋予 了 一 种 较 简 短 的 记 法 ， 却 无 法 像 Ruby 一 样 省 
略 方法 调用 时 的 括 导 ， 因 此 很 难说 JavaScript 的 这 种 模式 就 一 定 比较 好 ( 当然 ， 这 里 面 也 有 本 作 
者 的 私心 )。 

从 整体 来 看 ， 作 为 纯粹 面向 对 象 的 语言 ，Ruby 将 对 方法 的 调用 放 在 中 心 位 置 ; 相对 而 言 ， 
JavaScript 的 面向 对 象 功 能 ， 是 由 因数 对 象 这 一 概念 发 展 而 来 的 。 


Python 也 采用 了 和 JavaScript 相同 的 手法 。 如 果 对 一 种 原本 并 非 为 面向 对 象 设计 的 语言 ; 
加 面向 对 象 功能 的 话 ， 这 是 一 种 十 分 有 效 的 手法 。 

类 似 这 样 的 设计 思想 的 差异 ， 在 Lisp 中 早 就 存在 ， 这 两 种 做 法 分 别 叫做 Lisp-1 ( JavaScript 
风格 ) 和 Lisp-2 (Ruby 风格 )。 


























图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


xs 编程 语言 的 过 去 、 现 在 和 未 来 


92 





在 Lisp 的 方言 中 ，Scheme 等 是 属于 Lisp-1 的 ， 函 数 和 变量 的 命名 空间 是 相同 的 。Lisp-l 这 
个 名 称 ， 貌 似 就 是 从 命名 空间 唯一 这 一 概念 而 来 的 。 在 Scheme 中 ， 函 数 就 是 一 个 存放 对 函数 对 
象 的 引用 的 变量 而 已 。 








因此 ， 可 以 像 这 样 : 


(display "hello world") 
(define d display) 
(d "hello world") 


仅 通 过 赋值 操作 就 可 以 为 函数 定义 别名 。 








此 外 ，Lisp 的 另 一 个 方言 EmacsLisp 中 ， 变 量 和 函数 分 别 拥 有 各 自 的 命名 空间 。 如 果 执 行 
这 样 的 赋值 操作 : 








(echo "hello world") 
(setq e echo) 


就 会 产生 一 个 错误 : 
undefined variable echo 


这 是 由 于 虽然 存在 名 为 echo 的 函数 ， 却 不 存在 名 为 echo 的 变量 。 如 果 要 在 EmacsLisp 上 
实现 和 上 述 Scheme 的 例子 相同 的 操作 ， 就 需要 这 样 写 : 





(fset "e (symbol-function "ech 
0)) 
(en oO) 


symbol-function 用 来 通过 名 称 获取 函数 实体 ， 而 fset 将 名 称 与 函数 实体 进行 关联 。 虽 然 
Scheme 的 风格 看 上 去 比较 简单 ， 但 获取 函数 实体 这 种 操作 ,一般人 是 不 会 去 做 的 ， 因 此 没有 必 
要 将 这 种 操作 定义 得 这 么 简单 。 当 然 ， 用 Lisp 的 本 来 就 不 是 一 般 人 了 吧 ， 这 一 点 我 们 就 当 没 看 
见 吧 。 








现在 大 家 应 该 明白 了 ， 通 过 闭 包 ， 可 以 实现 更 加 高 度 的 抽象 化 。 刚 才 我 们 介绍 了 C、 
JavaScript、Ruby、Lisp 等 各 种 语言 中 图 数 对 象 的 实现 手法 ， 和 希望 大 家 能 够 通过 上 面 的 介绍 ， 对 
这 些 语言 的 设计 者 在 设计 语言 时 的 思路 有 一 个 大 致 的 理解 。 
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“编程 语言 的 过 去 、 现 在 和 未 来 ”后 记 


在 正文 中 ， 我 对 未 来 的 编程 语言 进行 了 预测 ， 认 为 对 云 计 算 和 多 核 的 支持 是 编程 语言 
未 来 发 展 的 趋势 ， 作 为 计算 的 进化 方向 ， 让 多 个 计算 机 (核心 ) 协同 工作 这 一 点 我 认为 
毫 无 疑问 的 。 本 书 中 也 对 多 核 环 境 下 的 编程 (第 6 章 “ 多 核 时代 的 编程 ” )， 以 及 在 服务 
端 对 多 台 计 算 机 的 编程 (第 4 章 “ 云 计算 时 代 的 编程 ”) 等 话题 进行 了 阐述 。 


喜 
已 
IE 
吗 


然而 ， 谈 到 编程 语言 的 进化 方向 ， 老 实说 我 也 是 有 点 雾 里 看 花 的 感觉 。 今 后 到 底 是 出 
现 一 种 对 多 核 和 云 计算 在 设计 上 就 进行 积极 支持 的 语言 ， 然 后 这 种 语言 逐步 流行 起 来 呢 ， 
还 是 在 现存 语言 的 基础 上 ， 以 库 的 形式 不 断 添加 对 上 述 环境 的 支持 呢 ? 虽然 自 调 为 编程 语 
言 方 面 的 专家 ， 但 对 我 来 说 这 依然 是 一 个 很 难 预测 的 话题 。 


例如 ，Erlang 是 一 种 对 并 行 、 分 散 编程 提供 积极 支持 的 语言 ， 是 由 瑞典 爱立信 公司 于 
20 世纪 80 年 代 后 半期 开始 开发 的 。 这 种 语言 的 风格 ， 如 : 


口 受 Prolog 的 影响 

口 动态 ， 函 数 型 语言 
口 单一 赋值 ， 无 循环 

口 基 于 Actor 的 消息 传递 
口 高 容错 性 


与 以 往 的 语言 都 有 很 大 差别 ， 但 却 趁 着 近来 的 发 展 趋势 迅速 走红 。 此 外 ， 无 需 显 式 指定 就 
能 够 在 内 部 实现 并 行 计算 可 能 性 的 Haskell 等 语言 也 值得 关注 。 

但 是 , 尽管 Erlang 和 Haskell 获得 了 广泛 的 关注 , 和 当前 多 核 . 云 计 算 的 发 展 速 度 相 比 ， 
它们 的 走红 也 只 是 一 时 的 。 这 其 中 的 原因 ， 可 能 是 因为 在 现 有 语言 上 增加 一 些 功 能 就 足够 
了 ， 不 需要 全 新 的 语言 ， 也 可 能 是 因为 Erlang 和 Haskell 所 提供 的 与 以 往 不 同 的 范式 和 编 
程 模型 ， 一 般 的 程序 员 还 无 法 适应 。 总 之 ， 现 在 这 个 时 点 是 很 难 做 出 判断 的 。 

今 


因此 ， 这 个 领域 在 今后 还 是 非常 值得 关注 的 。 
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编程 语 吾 言 的 新 潮流 
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五 一 一 用 急 
3 后 百 HJ 妈 上 
本 次 


BO 


SS 
SS 


接 下 来 ， 我 们 从 语言 设计 的 角度 ， 来 比较 一 下 客户 端 服务 器 端 
Java、JavaScript、Ruby 和 Go 这 4 种 语言 。 这 几 种 人 
语言 看 起 来 彼此 完全 不 同 ， 但 如 果 选 择 一 个 合适 的 
标准 ， 就 可 以 将 它们 非常 清楚 地 进行 分 类 ， 如 图 1 
Fe 动态 
区 
JavaScript 是 客户 端 语 言 的 代表 ，Java 其 实 也 在 。 
EF 人 


其 黎明 期 作为 客户 端 语 言 活跃 过 一 段 时 间 ， 应 该 有 运行 前 ] 人 的 


很 多 人 还 记得 Java Applet 这 个 名 词 。 之 后 ，Java 转 “决定 
型 为 服务 器 端 语言 的 代表 ， 地 位 也 扶 摇 直 上 ， 但 考 ee 
Sl oy 、 Yes i ava 在 最 早 的 时 候 是 作 大 端 语言 而 诞生 的 。 
虑 到 它 的 出 身 ， 这 里 还 是 将 其 分 类 为 客户 端 语言 。 家 








"mm 

mn 

mmm | 
1 

Mm ty 出 












































另 一 个 分 类 标准 ， 就 是 静态 和 动态 。 所 谓 静态 ， 就 是 不 实际 和 运行 程序 ， 仅 通过 程序 代码 的 
字面 来 确定 结果 的 意思 ; 而 所 谓 动态 ， 就 是 只 有 当 运 行 时 才 确 定 结果 的 意思 。 静 态 、 动 态 具 体 
所 指 的 内 容 有 很 多 种 ， 大 体 上 来 分 的 话 就 是 运行 模式 和 类 型 。 这 4 种 语言 全 都 具备 面向 对 象 的 
性 质 ， 而 面向 对 象 本 身 就 是 一 种 包含 动态 概念 的 性 质 。 不 过 ， 在 这 几 种 语言 之 中 ，Java 和 Go 
是 比较 偏重 静态 一 侧 的 语言 ， 而 Ruby 和 JavaScript 则 是 比较 偏重 动态 一 侧 的 语言 。 














作客 户 端 与 服务 器 端 








首先 ， 我们 先 将 这 些 语言 按照 客户 端 和 服务 右 端 来 进行 分 类 。 如 前 面 所 说 ， 这 种 分 类 是 以 
该 语言 刚刚 出 现时 所 使 用 的 方式 为 基准 的 。 








现在 Java 更 多 地 被 用 作 服 务 器 端 语言 ， 而 我 们 却 将 它 分 类 到 客户 端 语言 中 ,很 多 人 可 能 
感到 有 点 莫名 其 妙 。Java 确实 现在 已 经 很 少 被 用 作客 户 端 语 言 了 ， 但 是 我 们 不 能 忘记 ， 诞 生 于 
1995 年 的 Java， 正 是 伴随 能 人 在 浏览 器 中 的 Applet 技术 而 出 现 的 。 











Java 将 虚拟 机 ( VM ) 作为 插件 集成 到 浏览 器 中 ， 将 编译 后 的 Java 程序 ( Applet ) 在 虚拟 机 
上 运行 ， 这 种 技术 当初 是 为 了 增强 浏览 器 的 功能 。 再 往 前 追溯 的 话 ，Java 原本 名 叫 Oak， 是 作 
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为 面向 钥 入 式 设 备 的 编程 语言 而 诞生 的 。 因 此 ， 从 出 身 来 看 的 话 ，Java 还 是 一 种 面向 客户 端的 
编程 语言 。 

















Java 所 具备 的 VM 和 平台 无 关 性 字 节 码 等 特性 , 本 来 就 是 以 在 客户 端 运行 Applet 为 目的 的 。 
在 各 种 不 同 的 环境 下 都 能 够 产生 相同 的 行为 ， 这 样 的 特性 对 于 服务 需 端 来 说 虽然 也 不 能 说 是 毫 
无 价值 ， 但 是 服务 器 环境 是 可 以 由 服务 提供 者 来 自由 支配 的 ， 因 此 至 少 可 以 说 ， 这 样 的 特性 无 
法 带 来 关键 性 的 好 处 吧 。 另 一 方面 ， 在 客户 端 环境 中 ， 操 作 系统 和 浏览 锅 都 是 干 差 万 别 ， 因 此 
对 平台 无 关 性 的 要 求 一 直 很 高 。 


























Java 诞生 于 互联 网 的 黎明 时 期 ， 那 个 时 候 浏 览 絮 还 不 是 电脑 上 必 备 的 软件 。 当 时 主流 的 
浏览 器 有 Mosaic 和 Netscape Navigator 等 ，? 除 此 之 外 还 有 一 些 其 他 类 似 的 软件 ， 而 Internet 
Explorer 也 是 刚刚 才 绒 露头 角 。 











在 那个 充满 梦想 的 时 代 ， 如 果 能 开发 出 一 种 功能 上 有 亮点 的 浏览 器 就 有 可 能 称霸 业界 。 原 
Sun Microsystems 公司 2 曾 推出 了 一 个 用 Java 编写 的 浏览 器 HotJava， 向 世界 展示 了 Applet 的 可 
能 性 。 然 而 ， 随 着 浏览 器 市 场 格局 的 逐步 固定 ， 他 们 转变 了 策略 ， 改 为 向 主流 浏览 吉 提 供 插件 
来 集成 Java， 从 而 对 Applet 的 运行 提供 支持 。 
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然而 ，Java 自 诞 生 之 后 ， 并 未 在 客户 端 方面 取得 多 大 的 成 功 ， 于 是 便 开 始 着 手 进 入 服务 器 
端 领域 。 造 成 这 种 局 面 有 很 多 原因 ， 我 认为 其 中 最 主要 的 原因 应 该 是 在 Applet 这 个 平台 上 迟 迟 
没有 出 现 一 款 杀手 级 应 用 (Killer app )。 








处 于 刚刚 诞生 之 际 的 Java 遭 到 了 很 多 批判 ， 如 体积 腾 肿 、 运 行 缓慢 等 ， 不 同 浏览 需 上 的 
Java 插件 之 间 也 存在 一 些 兼容 性 方面 的 问题 ， 使 得 Applet 应 用 并 没有 真正 流行 起 来 。 在 这 个 过 
程 中 ，JavaScript 作为 客户 端 编程 语言 则 更 加 实用 ， 并 获得 了 越 来 越 多 的 关注 。 当 然 ， 在 那个 时 
候 Java 已 经 完全 确立 了 自己 作为 服务 顺 端 编程 语言 的 地 位 ， 因 此 丧失 客户 端 这 块 领地 也 不 至 于 
感到 特别 肉 痛 。 





















































Java 从 客户 端 向 服务 器 端的 转身 可 以 说 是 相当 成 功 的 。 与 此 同时 ，Sun Microsystems 和 


























(QD Mosaic 是 世界 上 第 一 款 真正 流行 的 互联 网 浏览 器 软件 ， 由 美国 国家 超级 计算 机 应 用 中 心 (National Center for 
Supercomputing Applications，NCSA ) 开发 ，1993 年 发 布 ，1997 年 停止 开发 。Netscape Navigator 是 由 网 景 公司 
( Netscape ) 开发 的 一 款 互 联网 浏览 器 软件 ，1994 年 发 布 ， 曾 经 一 度 是 市 场 占 有 率 最 高 的 浏览 器 软件 ， 后 来 它 的 
地 位 被 微软 的 Internet Explorer 所 取代 。 

@ Sun Microsystems 于 2010 年 以 74 亿美 元 被 Oracle 收购 。 
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3.1 语言 的 设计 





IBM 等 公司 着 手 对 JVM (Java VM ) 进行 改良 ， 使 得 其 性 能 得 到 了 改善 ， 在 某 些 情况 下 性 能 甚 
至 超越 了 C+。 想 想 之 前 对 Java 性 能 恶 评 如 潮 的 情形 ， 现 在 Java 能 有 这 样 的 性 能 和 人 气 简 直 就 
像 做 梦 一 样 。 











饼 在 服务 器 端 获得 成 功 的 四 大 理由 


由 于 我 本 人 没有 大 规模 实践 过 Java 编程 ， 因 此 对 于 Java 在 服务 融 端 取得 成 功 的 来 龙 去 脉 ， 
说 真 的 并 不 是 很 了 解 。 不 过 ， 如 果 让 我 想象 一 下 的 话 ， 大 概 有 下 面 几 个 主要 的 因素 。 








1. 可 移植 性 


虽然 服务 器 环境 比 客户 端 环 境 更 加 可 控 ， 但 服务 器 环境 中 所 使 用 的 系统 平台 种 类 也 相当 多 ， 
如 Linux 、Solaris 、FreeBSD 、Windows 等 ， 根 据 需 要 ， 可 能 还 会 在 系统 上 线 之 后 更 换 系 统 平 台 。 
在 这 样 的 情况 下 ，Java 所 具备 的 “一 次 编写 ， 到 处 运行 ”特性 就 显得 魅力 十 足 了 。 








2. 功能 强大 
Java 在 服务 需 端 细 露 头角 是 在 20 世纪 90 年 代 末 ， 那 个 时 候 的 状况 对 Java 比较 有 利 。 和 
Java 在 定位 上 比较 相似 的 语言 ， 即 静态 类 型 、 编 译 型 、 面 向 对 象 的 编程 语言 ， 属 于 主流 的 也 就 
只 有 C++ 而 已 了 。 




















在 Java 诞生 的 20 世纪 90 年 代 中 期 ， 正 好 是 我 作为 C++ 程序 员 开 发 CAD 相关 系统 的 时 候 。 
但 当时 C++ 也 还 处 于 发 展 过 程 中 ， 在 实际 的 开发 中 ， 模 板 、 异 党 等 功能 还 无 法 真正 得 到 运用 。 











相 比 之 下 ，Java 从 一 开始 就 具备 了 垃圾 回收 (GC ) 机 制 ， 并 在 语言 中 内 置 了 异常 处 理 ， 其 
标准 库 也 是 完全 运用 了 有 异常 处 理 来 设计 的 ， 这 对 程序 员 来 说 简直 是 天 党。 毫 无 疑问 ，Java 语言 
的 这 些 优 秀 特性 ， 是 帮助 其 确立 服务 需 端 编程 语言 地 位 的 功臣 之 一 。 

















3. 高 性 能 


下 


Java 为 了 实现 其 “一 次 编写 ， 到 处 运行 ”的 宣传 口号 ， 并 不 是 将 程序 直接 转换 为 系统 平台 
所 对 应 的 机 器 语言 ， 而 是 转换 为 虚拟 CPU 的 机 器 语言 “ 字 节 码 ”(Bytecode )， 并 通过 搭载 虚拟 
CPU 的 模拟 器 JVM 来 运行 。JVM 归根 到 底 其 实 是 在 运行 时 用 来 解释 字 节 码 的 解释 器 ， 理 论 上 
说 运行 速度 应 该 无 法 与 直接 生成 机 器 语言 的 原生 编译 器 相 媲 美 。 





























事实 上 ， 在 Java 诞生 初期 ,确实 没有 达到 编译 型 语言 应 有 的 运行 速度 ， 当 时 的 用 户 经 常 抱 
怨 Java 太 慢 了， 这样 的 恶 评 令 人 印象 深刻 。 
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然而 ， 技 术 的 革新 是 伟大 的 。 随 着 各 种 技术 的 进步 ， 现 在 Java 的 性 能 已 经 能 够 堪 称 顶级 。 


例如 ,有 一 





种 叫做 JIT (Just In Time ) 编译 的 技术 , 可 以 在 运行 时 将 字 节 人 码 转 换 成 机 需 话 言 ， 





经 过 转换 之 后 就 可 以 获得 和 原生 编译 一 样 快 的 运行 速度 。 在 运行 时 进行 编译 ， 就 意味 着 编译 时 





间 也 会 包含 在 运行 时 间 里 面 。 因 此 ， 优 秀 的 JIT 编译 器 会 通过 侦 测 运行 信息 ， 仅 将 需要 频繁 运 
行 的 瓶颈 部 分 进行 编译 ， 从 而 大 大 削减 编译 所 需 的 时 间 。 而 且 ， 利 用 运行 时 编译 ， 可 以 不 用 考 
虑 连接 的 问题 而 积极 运用 内 联 扩展 "， 因 此 在 某 些 情况 下 ， 运 行 速度 甚至 可 以 超过 C++。 


在 Java 中 ， 
































其 性 能 提高 的 另 一 个 障碍 就 是 GC。GC 需要 对 对 象 进行 扫描 ， 将 不 用 的 对 象 进 











行 回收 ， 这 个 过 程 和 程序 本 身 要 进行 的 操作 是 无 关 的 ， 换 句 话说， 就 是 做 无 用 功 ， 因 此 而 消耗 
的 时 间 拖累 了 Java 程序 的 性 能 。 作 为 对 策 ， 在 最 新 的 JVM 中 ， 采 用 了 并 行 回 收 、 分 代 回收 ?等 


技术 。 





4. 丰富 的 库 


随 着 Java 的 人 气 直 升 ， 应 用 逐渐 广泛 ，Java 能 够 使 用 的 库 也 越 来 越 多 。 库 的 增加 提高 了 开发 
效率 , 从 而 又 反 过 来 拉 高 了 Java 的 人 气 , 形成 了 一 个 良性 循环 。 现 在 Java 的 人 气 已 经 无 可 撼动 了 。 











名 客户 端的 JavaScript 











Applet 在 客户 端 对 扩展 浏览 锅 功 能 做 出 了 尝试 ， 然 而 它 并 不 大 成 功 。 在 浏览 器 画面 中 的 一 
个 矩形 区 域 中 运行 应 用 程序 的 Applet， 并 没有 作为 应 用 程序 的 发 布 手段 而 流行 起 来 。 


几乎 是 在 同一 时 期 出 现 的 JavaScript， 也 是 一 种 集成 在 浏览 器 中 的 语言 ， 但 是 它 可 以 在 一 般 
的 网 页 中 内 入 程序 逻辑 ， 这 一 点 是 和 Java Applet 完全 不 同 的 方式 ， 却 最 终 获得 了 成 功 。 


JavaScript 是 由 原 Netscape Communications 公司 ?开发 的 ， 通 过 JavaScript， 用 户 点 击 网 页 














上 的 链接 和 按钮 时 ， 不 光 可 以 进行 页 面 的 跳 转 ， 还 可 以 改写 页 面 的 内 容 。 这 样 的 功能 十 分 便利 ， 
因此 Netscape Navigator 之 外 的 很 多 浏览 器 都 集成 了 JavaScript。 


随 着 浏览 右 的 不 断 苋 争 和 淘汰 ， 当 主流 浏览 右 全 部 支持 JavaScript 时 ， 情 况 便 发 生 了 变 


化 。 像 Google 





























地 图 这 样 的 产品 ， 整 体 的 框架 是 由 HIML 组 成 的 ， 但 实际 显示 的 部 分 却 是 通过 





Q 内 联 扩展 





Inline expansion ) 是 指 让 编译 器 直接 将 完整 的 函数 体 插 和 人 到 每 一 个 调用 该 函数 的 地 方 ， 从 而 提高 函 











数 调用 的 运行 速度 。 

















@ 并 行 回收 可 

















以 将 GC 放 在 单独 的 线程 中 运行 ， 从 而 对 程序 本 身 的 处 理 ( 基本 上 ) 不 造成 影响 。 分 代 回 收 是 在 扫 























描 过 程 中 忽略 程序 运行 中 一 直 存 活 的 长 寿 对 象 ， 从 而 减少 扫描 工作 量 ， 降 低 GC 开销 的 技术 。( 原 书 注 ) 





@) 网 景 通信 ( 
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Netscape Communications ) 于 1998 年 被 美国 在 线 (AOL ) 收购 ， 并 于 2003 年 解散 。 
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JavaScript 来 从 服务 需 获 取 数 据 并 显示 出 来 ， 这 样 的 手法 从 此 开始 流行 起 来 。 


在 JavaScript 中 与 服务 器 进行 异步 通信 的 API 叫做 XMLHttpRequest， 因 此 从 它 所 衍生 出 的 
手法 便 被 称 为 Ajax ( Asynchronous JavaScript and XML ， 异 步 JavaScript 与 XML )。 在 美国 有 一 
种 叫做 Ajax 的 厨房 清洁 剂 ， 说 不 定 是 从 那个 名 字模 仿 而 来 的 。 








饼 性 能 显著 提升 





目前 ， 客 户 端 编 程 语言 中 JavaScript 已 成 为 一 个 强 有 力 的 竞争 者 ， 伴 随 着 JavaScript 重要 性 
的 不 断 提高 ， 对 JavaScript 引擎 的 投资 也 不 断 增 加 ， 使 JavaScript 的 性 能 得 到 了 显著 改善。 改善 
JavaScript 性 能 的 主要 技术 ,除了 和 Java 相同 的 JIT 和 GC 之 外 ,还 有 特殊 化 ( Specialization ) 技 术 。 




















与 Java 不 同 ，JavaScript 是 一 种 动态 语言 ， 不 带 有 变量 和 表达 式 的 类 型 信息 ， 针 对 类 型 进 
行 优化 是 非常 困难 的 ， 因 此 性 能 和 静态 语言 相 比 有 着 先天 的 劣势 ， 而 特殊 化 就 是 提高 动态 语言 
性 能 的 技术 之 一 。 











我 们 设想 图 2 所 示 的 这 样 一 个 JavaScript 函数 。 这 个 函数 
用 于 阶乘 计算 的 ， 大 多 数 情 况 下 ， 其 参数 n 应 该 都 是 整数 
于 JIT 需要 统计 运行 时 信息 ， 因 此 JavaScript 解释 器 也 知道 参数 i 
n 大 多 数 情况 下 是 整数 。 图 2 JavaScript 函数 


上 月 

年 function fact(n) { 
。 由 I (Om == 1 Pawn Ws 
peu tac Ie: 





| 









































于 是 ， 当 解释 器 对 fact 函数 进行 JIT 编译 时 ， 会 生成 两 个 版 本 的 函数 : 一 个 是 1 为 任意 对 
象 的 通用 版 本 ， 另 一 个 是 假设 n 为 整数 的 高 速 版 本 。 当 参数 n 为 整数 时 ( 即 大 多 数 情 况 下 )， 就 
会 运行 那个 高 速 版 本 的 函数 ， 便 实现 了 与 静态 语言 几乎 相同 的 运行 性 能 。 























除 此 之 外 ， 最 新 的 JavaScript 引擎 中 还 进行 了 其 他 大 量 的 优化 "， 说 JavaScript 是 目前 最 快 
的 动态 语言 应 该 并 不 为 过 。 








JavaScript 在 客户 端 称霸 之 后 ， 又 开始 准备 向 服务 器 端 进军 了 2 。JavaScript 的 存在 感 在 将 来 
应 该 会 越 来 越 强 吧 。 








@ 这 些 优化 包括 将 JavaScript 中 本 来 以 散 列表 ( Hash table ) 形式 实现 的 对 象 进行 数组 化 ， 从 而 提高 访问 速度 ; 通 
过 内 联 化 和 特殊 化 相 结合 ， 实 现 和 静态 语言 同等 的 对 象 访问 速度 等 技术 。( 原 书 注 ) 

@) 在 各 种 服务 器 端 JavaScript 的 尝试 中 ， 最 有 力 的 一 种 就 是 node.js。node.js 是 将 Google Chrome 中 搭载 的 高 速 
JavaScript 引擎 v8， 与 异步 IO 相 结合 的 产物 。 在 第 6 章 中 我 们 将 介绍 node.js。( 原 书 注 ) 
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信服 务 器 端的 Ruby 








客户 端 编程 的 最 大 问题 ， 就 是 必须 要 求 每 一 台 客 户 端 都 安装 相应 的 软件 环境 。 在 Java 和 
JavaScript 诞生 的 20 世纪 90 年 代 后 羊 ， 互 联网 用 户 还 只 局 限于 一 部 分 先进 的 用 户 ， 然 而 现在 互 
联网 已 经 大 大 普及 ,用户 的 水 平 构成 也 跟着 变 得 复杂 起 来 ， 让 每 一 台 客 户 端 都 安装 相应 的 软件 
环境 ， 就 会 大 大 提高 软件 部 署 的 门槛 。 


而 相对 的 ， 在 服务 器 端 就 没有 这 样 的 制约 ， 可 以 选择 最 适合 自己 的 编程 语言 。 


在 Ruby 诞生 的 1993 年 ， 互 联网 还 没有 现在 这 样 普 及 ， 因 此 Ruby 也 不 是 一 开始 就 面向 
Web 服务 顺 端 来 设计 的 。 然 而 ， 从 WWW 黎明 期 开始 ， 为 了 实现 动态 页 面 而 出 现 了 通用 网 关 接 
口 (Common Gateway Interface，CGI ) 技术 ， 而 Ruby 则 逐渐 在 这 种 技术 中 得 到 了 应 用 。 


所 谓 CGI， 是 通过 Web 服务 器 的 标准 输入 输出 与 程序 进行 交互 ， 从 而 生成 动态 HTML 页 面 
的 接口 。 只 要 可 以 对 标准 输入 输出 进行 操作 ,那么 无 论 任 何 语言 都 可 以 编写 CGI 程序 ， 这 不 得 
不 归功 于 WWW 设计 的 灵活 性 ， 使 得 动态 页 面 可 以 很 容易 地 编写 出 来 ， 也 正 是 因为 如 此 ， 使 得 
WWW 逐渐 风靡 全 世界 。 


在 WWW 中 , 来 自 Web 服务 器 的 请 求 信 息 是 以 文本 的 方式 传递 的 ， 反 过 来 ， 返 回 给 Web 
服务 器 的 响应 信息 也 是 以 文本 (HIML ) 方式 传递 的 ， 因 此 擅长 文本 处 理 的 编程 语言 就 具有 得 
天 独 厚 的 优势 。 于 是 ， 脚 本 语言 的 时 代 到 来 了 。 以 往 只 是 用 于 文本 处 理 的 脚本 语言 ， 其 应 用 范 
围 便 一 下 子 扩 大 了 。 


























































































































早期 应 用 CGI 的 Web 页 面 大 多 是 用 Perl 来 编写 的 ， 而 作为 “Better Perl” 的 Ruby 也 随 之 逐 
步 得 到 越 来 越 多 的 应 用 。 


仿 Ruby on Rails 带 来 的 飞跃 








2004 年 ， 随 着 Ruby on Rails 的 出 现 ， 使 得 Web 应 用 程序 的 开发 效率 大 幅 提 升 ， 也 引发 了 
广泛 的 关注 。 当 时 , 已 经 出 现 了 很 多 Web 应 用 程序 框架 ,而 Ruby on Rails 可 以 说 是 后 发 制 人 的 。 
Ruby on Rails 的 特性 包括 : 




















口 完全 的 MVC 架构 

口 不 使 用 配置 文件 (尤其 是 XML ) 
口 坚持 简洁 的 表达 

口 积极 运用 元 编程 

口 对 Ruby 核心 的 大 胆 扩展 
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基于 这 些 特性 , Ruby on Rails 实现 了 很 高 的 开发 效率 和 灵活 性 ,得 到 了 广泛 的 应 用 。 可 以 说 ， 
Ruby 能 拥有 现在 的 人 气 ， 基 本 上 都 是 Ruby on Rails 所 作出 的 贡献 。 


目前 ， 作 为 服务 需 端 编程 语言 ，Ruby 的 人 气 可 谓 无 可 撼动 。 有 一 种 说 法 称 ， 以 硅谷 为 中 心 
的 Web 系 创业 公司 中 ， 超 过 一 半 都 采用 了 Ruby。 


但 这 也 并 不 是 说 ,只 要 是 服务 右 端 环境 , Ruby 就 一 定 可 以 所 向 披 靡 。 在 规模 较 大 的 企业 中 ， 
向 网 站 运营 部 门 管理 的 服务 带 群 安装 软件 也 并 不 容易 。 实 际 上， 在 某 个 大 企业 中 ， 曾 经 用 Ruby 
on Rails 开发 了 一 个 面向 技术 人 员 的 SNS， 只 用 很 短 的 时 间 就 完成 搭建 了 ,但 是 等 到 要 正式 上 线 
的 时 候 ， 运 营 部 门 就 会 以 “这 种 不 知道 哪个 的 家 伙 开 发 的 ， 也 没 经 过 第 三 方 安全 认证 的 Ruby 解 
释 器 之 类 的 软件 ， 不 可 以 安装 在 我 们 数据 中 心 的 主机 上 面 ” 这 样 的 理由 来 拒绝 安装 ， 这 真是 相 
当头 疼 。 

不 过 ， 开 发 部 门 的 工程 师 们 并 没有 气 蚀 ， 而 是 用 Java 编写 的 Ruby 解释 咒 JRuby， 将 开发 好 
的 SNS 转换 为 jar 文件 ， 从 而 使 其 可 以 在 原 Sun Microsystems 公司 的 应 用 程序 服务 器 GlassFish 
上 运行 。 当 然 ，JVM 和 GlassFish 都 已 经 在 服务 器 上 安装 好 了 ， 这 样 一 来 运营 方面 也 就 没有 理由 
拒绝 了 。 多 亏 了 JRuby， 结 局 丝 大 欢喜 。 


JRuby 还 真是 在 关键 时 刻 大 显 身 手 呢 。 



























































匀 服务 器 端的 Go 








Go 是 一 种 新 兴 的 编程 语言 ， 但 它 出 身 名 门 ， 是 由 著名 UNIX 开发 者 罗 勃 派克 和 肯 “' 汤 普 
逊 ? 开 发 的 ， 因 此 受到 了 广泛 的 关注 。 

Go 的 诞生 背景 源 于 Google 公司 中 关于 编程 语言 的 一 些 问 题 。 在 Google 公司 中 ， 作 为 优 
化 编程 环境 的 一 环 ， 在 公司 产品 开发 中 所 使 用 的 编程 语言 ， 仅 限于 C/C++、Java、Python 和 
JavaScript。 实 际 上 也 有 人 私 底 下 在 用 Ruby， 不 过 正式 产品 中 所 使 用 的 语言 仅 限 上 述 4 种 。® 

这 4 种 语言 在 使 用 上 遵循 着 一 定 的 分 工 : 客户 端 语言 用 JavaScript， 服 务 器 端 语言 用 脚本 系 
的 Python， 追 求 大 规模 或 高 性 能 时 用 Java， 文 件 系统 等 面向 平台 的 系统 编程 用 C/C++。 在 这 些 
语言 中 ，Google 公司 最 不 满意 的 就 是 C/C++ 了 。 



































人 罗 勃 。 派 克 ( Rob Pike，1956 一 ”) 是 加 拿 大 程序 设计 师 ， 早 年 为 贝尔 实验 室 的 UNIX 小 组 成 员 ， 曾 参与 设计 贝 
尔 实验 室 9 号 计划 ( Plan 9 )、Inferno 操作 系统 和 Limbo 编程 语言 ， 目 前 就 职 于 Google 公司 。 肯 。 汤 普 逊 (Ken 
Thompson，1943 ) 是 美国 计算 机 科学 家 ， 曾 参与 设计 Plan 9、B 语言 、C 语言 ， 并 于 1983 年 获得 图 灵 奖 。 
@ 此 外 还 有 一 些 内 部 专用 的 语言 ， 例 如 ， 为 了 让 用 于 处 理 Web 仆 虫 所 抓 取 的 大 量 数据 的 MapReduce 运行 更 高 效 ， 
使 用 了 专用 语言 Sawzall。( 原 书 注 ) 
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和 其 他 一 些 编程 语言 相 比 ，C/C++ 的 历史 比较 久 ， 因 此 不 具备 像 垃圾 回收 等 最 近 的 语言 所 
提供 的 编程 辅助 功能 。 因 此 ， 由 于 开发 效率 一 直 无 法 得 到 提高 ， 便 产生 了 设计 一 种 “更 好 的 ” 
系统 编程 语言 的 需求 。 而 能 够 胜任 这 一 位 置 的 ， 正 是 全 新 设计 的 编程 语言 Go。 

Go 具有 很 多 特性 ，( 从 我 的 观点 来 看 ) 比较 重要 的 有 下 列 几 点 : 


口 垃圾 回收 

口 支持 并 行 处 理 的 Goroutine 

口 Structural Subtyping ( 结构 子 类 型 ) 

关于 最 后 一 点 Structural Subtyping， 我 们 会 在 后 面 对 类 型 系统 的 讲解 中 进行 说 明 。 





















































久 静态 与 动态 
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刚才 我 们 已 经 将 这 4 种 语言 , 从 客户 端 \ 服 务 需 端的 角度 进行 了 分 类 。 接 下 来 我 们 再 从 动态 、 
静态 的 角度 来 看 一 看 这 几 种 语言 。 

正如 刚才 所 讲 过 的 ， 所 谓 静 态 ， 就 是 无 需 实际 运行 ， 仅 根据 程序 代码 就 能 确定 结果 的 意思 ; 
而 所 谓 动 态 ， 则 是 只 有 到 了 运行 时 才能 确定 结果 的 意思 。 


不 过 ， 无 论 任何 程序 ， 或 多 或 少 都 包含 了 动态 的 特性 。 如 果 一 个 程序 完全 是 静态 的 话 ， 那 
就 意味 着 只 需要 对 代码 进行 字面 上 的 分 析 ， 就 可 以 得 到 所 有 的 结果 ， 这 样 一 来 程序 的 运行 就 没 
有 任何 意义 了 。 例 如 ， 编 程 计算 6 的 阶乘 ， 如 果 按 照 完 全 静态 的 方式 来 编写 的 话 ， 应 该 是 下 面 
这 样 的 : 

[DUES 2 


不 过 ， 除 非 是 个 玩具 一 样 的 演示 程序 ， 否 则 不 会 开发 出 这 样 的 程序 来 。 在 实际 中 ， 由 于 有 
了 输入 的 数据 ， 或 者 和 用 户 之 间 的 交互 ， 程 序 才 能 在 每 次 运行 时 都 能 得 到 不 同 的 要 素 。 

因此 ， 作 为 程序 的 实现 者 ， 编 程 语言 也 多 多 少 少 都 具备 动态 的 性 质 。 所 谓 动态 还 是 静态 ， 
指 的 是 这 种 语言 对 于 动态 的 功能 进行 了 多 少 限制 ,或 者 反 过 来 说 ， 对 动态 功能 进行 了 多 少 积极 
的 强化 ， 我 们 所 探讨 的 其 实 是 语言 的 这 种 设计 方针 。 

































































QD Goroutine 是 Go 特有 的 一 个 术语 ， 简 单 来 说 就 是 轻 量 版 的 线程 。 随 着 多 核 处 理 器 的 普及 ， 并 发 编程 的 重要 性 不 
断 提 高 ， 然 而 C/C++ 在 语言 层面 并 不 支持 并 发 编程 。 在 内 核 层面 可 以 使 用 线程 〈pthread 等 )， 但 用 起 来 并 没有 
那么 方便 。 在 Go 中 ,通过 在 语言 层面 所 提供 的 支持 ,就 很 好 地 支持 了 系统 编程 层面 中 对 并 发 编程 的 有 效 利用 ,( 原 
书 注 ) 
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3.1 语言 的 设计 


对 象 的 语言 都 会 具备 被 











例如 ， 在 这 里 所 列举 的 4 种 编程 语言 都 是 面向 对 象 的 语言 ， 而 面向 
态 性 质 。 即 ,根据 存放 在 变量 中 的 对 象 的 实际 性 质 ， 
方式 (方法 ) 这样 的 功能 可 以 说 是 面向 对 象 编程 的 本 质 。 


称 为 多 态 ( Polymorphism ) 或 者 动态 绑 定 的 动 
属于 动态 的 编程 语言 ,其 动态 的 部 分 , 主要 是 指 运 行 模式 和 类 型 。 这 两 者 是 相互 独立 的 概念 ， 























自动 选择 一 种 合适 的 处 到 
但 采用 动态 类 型 的 语言 ， 其 运行 模式 也 具有 动态 的 倾向 ; 反之 也 是 一 样 ， 在 静态 语言 中 ， 运 行 


让 


We 








模式 在 运行 时 的 灵活 性 也 会 受到 一 定 的 限 
中 的 程序 能 够 识别 自身 ， 并 对 自身 进行 操作 。 对 


运 


人 动态 运行 模式 
所 谓 动态 运行 模式 ， 简 单 来 说 ， 就 是 运行 
在 Ruby 和 JavaScript 中 ， 元 编程 是 十 分 自然 的 ， 比 如 查询 某 个 对 象 拥有 哪些 方法 ,或 者 在 








所 当然 的 事 。 





程序 自身 进行 操作 的 编程 ， 也 被 称 为 元 编程 ”( Metaprogramming )。 














运行 时 对 类 和 方法 进行 定义 等 等 ， 这 些 都 是 肖 
操作 等 功能 都 是 可 以 做 到 的 ， 但 并 非 像 Ruby 和 JavaScript 那样 让 人 感到 自由 自在 ， 而 是 “虽然 
时 信息 ( 主要 是 类 型 ), 但 是 ( 在 





< 


男 一 方面 ,在 Java 中 ,类 似 元 编程 的 手法 ,是 通过 “反射 API 来 实现 的 。 虽 然 对 类 进行 取出 、 


的 运行 

















能 做 到 ， 但 一 般 也 不 会 去 用 ”这 样 的 感觉 吧 。 
过 利用 reflect 包 可 以 获取 程序 
我 所 理解 的 范围 内 ) 无 法 实现 进一步 的 元 编程 功能 。 而 之 所 以 没有 采用 比 Java 更 进一步 的 动态 
能 ) 在 系统 编程 领域 中 必要 性 不 大 ， 或 者 是 担心 对 运行 速度 产生 





Go 也 是 一 样 , 在 Go 中 , 通 











运行 模式 ， 趣 怕 是 因为 这 ( 可 外 


负面 影响 之 类 的 原因 吧 。 
E 质 所 进行 的 描述 。 例 如 ， 它 的 结 
且 只 有 数据 才 拥 









































仿 何 谓 类 型 
从 一 般 性 的 层面 来 看 ， 类 型 ? 指 的 是 对 某 个 数据 所 具有 的 诉 
构 是 怎样 的 ， 它 可 以 进行 哪些 操作 ， 等 等 。 动 态 类 型 的 立场 是 数据 拥有 类 型 
4， 而 静态 类 型 的 立场 是 数据 拥有 类 型 ， 而 存放 数据 的 变量 、 表 达 式 也 拥有 类 型 ， 且 类 型 
己 进 行 反省 ”的 意 























有 类 型 ; 
是 在 编译 时 就 固定 的 。 
Q@ 程序 “对 自身 进行 操作 ”也 被 称 为 “反射 ”( Reflection )。 在 英语 中 ，Reflection 一 词 有 “对 自 
!， 在 Ruby 大 多 被 称 为 元 编程 ， 而 在 Java 中 则 大 多 被 称 为 反射 。( 原 书 注 ) 
@) 其 实 ， 类 型 这 个 话题 ， 在 现在 许多 计算 机 科学 论文 所 设计 的 领域 中 ， 算 是 比较 热门 的 。 不 过 在 这 里 ， 我 们 不 去 
于 那些 通 篇 都 是 数学 公式 的 类 型 理论 方面 的 论文 














主 ) 























田 
7 忆 








\。 同样 的 意思 
说 实话 ， 我 的 数学 素养 实在 不 行 ， 对 了 
解 这 些 内 容 了 。( 原 书 六 








探讨 那些 最 尖端 的 话题 。 
， 因 此 很 遗憾 ， 我 也 就 没 办 法 1 


实在 是 无 法 理解 
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然而 ， 即 便 是 静态 类 型 ， 由 于 面向 对 象 语 言 中 的 多 态 特 性 ， 也 必须 具备 动态 的 性 质 ， 因 
此 需要 再 追加 一 条 规则 ， 即 实际 的 数据 ( 类 型 )， 是 静态 指定 的 类 型 的 子 类 型 。 所 谓 子 类 型 
( Subtype )， 是 指 具 有 继承 关系 ， 或 者 拥有 同一 接口 ， 即 静态 类 型 与 数据 的 类 型 在 系统 上 “拥有 
同一 性 质 ”。 

















必 静 态 类 型 的 优点 


动态 类 型 比较 简洁 ， 且 灵活 性 高 ， 但 静态 类 型 也 有 它 的 优点 。 由 于 在 编译 时 就 已 经 确定 
类 型 ， 因 此 比较 容易 发 现 bug。 当 然 ， 程序 中 的 bug 大 多 数 都 是 与 逻辑 有 关 的 ， 而 单纯 是 类 型 
错误 而 导致 的 bug 只 是 少数 派 。 不 过 ， 人 逻辑 上 的 错误 通常 也 伴随 着 编译 时 可 以 检测 到 的 类 型 不 
匹配 ， 也 就 是 说 ， 通 过 类 型 错误 可 以 让 其 他 的 bug 显露 出 来 。 




















一 | 


















































除 此 之 外 ， 程 序 中 对 类 型 的 描述 ， 可 以 帮助 对 程序 的 阅读 和 理解 ,或 者 可 以 成 为 关于 程序 
行为 的 参考 文档 ， 这 可 以 说 是 一 个 很 大 的 优点 。 

















此 外 ,通过 静态 类 型 ， 可 以 在 编译 时 获得 更 多 可 以 利用 的 调 优 信息 ， 编 译 絮 便 可 以 生成 更 
优质 的 代码 ， 从 而 提高 程序 的 性 能 。 然 而 ， 通 过 JIT 等 技术 ， 动 态 语言 也 可 以 获得 与 原生 编译 
的 语言 相近 的 性 能 ， 这 也 说 明 ， 在 今后 静态 语言 和 动态 语言 之 间 的 性 能 差距 会 继续 缩小 。 
































匀 动态 类 型 的 优点 


相对 而 言 ， 动 态 类 型 的 优点 ， 就 在 于 其 简洁 性 和 灵活 性 了 。 



































说 得 极端 一 点 的 话 ， 类 型 信息 其 实 和 程序 运行 的 本 质 是 无 关 的 。 就 拿 阶乘 计算 的 程序 来 说 ， 
无 论 是 用 显 式 声明 类 型 的 Java 来 编写 (图 3 )， 还 是 用 非 显 式 声明 类 型 的 Ruby 来 编写 (图 4)， 
其 算法 都 是 毫 无 区 别 的 。 然 而 ， 由 于 多 了 关于 类 型 的 描述 ， 因 此 在 Java 版 中 ， 与 算法 本 质 无 关 
的 代码 的 分 量 也 就 增加 了 。 

































































class Sample { def fact(n) 
brnvatenstatic nine niacin if n == 1 
mn = etunpmn: 1 
re a tact(m ) else 
] mfac tn 
public static void main(String[] argv) { end 
Systemsoupr mn ou nace end 
} [oP ns AOU vee (yo Wn 
下 i 
图 3 Java 编写 的 阶乘 程序 图 4 Ruby 编写 的 阶乘 程序 
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3.1 语言 的 设计 


而 且 ， 类 型 也 带 来 了 更 多 的 制约 。 图 3、 图 4 中 所 示 的 程序 对 6 的 阶乘 进行 了 计算 ， 但 如 
果 这 个 数字 继续 增 大 ，Java 版 对 超过 13 的 数 求 阶乘 的 话 ， 就 无 法 正确 运行 了 。 图 3 的 程序 中 ， 
fact 方法 所 接受 的 参数 类 型 显 式 声明 为 int 型， 而 Java 的 int 为 32 位 ， 即 可 以 表示 到 接近 20 人 
的 整数 。 如 果 阶 乘 的 计算 结果 超出 这 个 范围 ， 就 会 导致 溢出 。 

当然 ， 由 于 Java 拥有 丰富 的 库 资 源 ， 用 BigInteger 类 就 可 以 实现 无 上 限 的 大 整数 计算 ， 但 
这 就 需要 对 上 面 的 程序 做 较 大 幅度 的 改动 。 而 由 于 计算 机 存在 “int 的 幅度 为 32 位 ”这 一 限制 ， 
就 使 得 阶乘 计算 的 灵活 性 大 大 降低 了 。 

另 一 方面 ，Ruby 版 中 则 没有 这 样 的 制约 ， 就 算是 计算 13 的 阶乘 ， 甚 至 是 200 的 阶乘 ， 都 
可 以 直接 计算 出 来 ， 而 无 需 担 心 如 int 的 大 小 、 计 算 机 的 限制 等 问题 。 

其 实 这 里 还 是 有 点 小 把 戏 的 。 同 样 是 动态 语言 ， 用 图 1 中 的 JavaScript 来 计算 200 的 阶乘 就 
会 输出 Infinity (无穷 大 )。 其 实 ，JavaScript 的 数值 是 浮 点 数 ， 因 此 无 法 像 Ruby 那样 支持 大 整 
数 的 计算 。 也 就 是 说 , 要 不 受制 约 地 进行 计算 , 除了 类 型 的 性 质 之 外 , 库 的 支持 也 是 非常 重要 的 。 









































你 有 了 胸 子 样 的 就 是 鸭子 


在 动态 语言 中 ,一 种 叫做 鸭子 类 型 ( Duck Typing ) 的 风格 被 广泛 应 用 。 有 鸭子 类 型 这 个 称谓 ， 
据说 是 从 下 面 这 则 英语 童谣 来 的 : 

Ifit walks like a duck and quacks like a duck, it must be a duck. (如 果 像 鸭子 一 样 走路 ， 像 胸 子 
一 样 啤 哌 叫 ， 则 它 一 定 是 一 只 鸭子 ) 


从 这 则 童谣 中 ， 我 们 可 以 推导 出 一 个 规则 ， 即 如 果 某 个 对 象 的 行为 和 鸭子 一 模 一 样 ， 那 无 
论 它 真 正 的 实体 是 什么 ， 我 们 都 可 以 将 它 看 做 是 一 只 鸭子 。 也 就 是 说 ， 不 考虑 某 个 对 象 到 底 是 
哪 一 个 类 的 实例 ， 而 只 关心 其 拥有 怎样 的 行为 (拥有 哪些 方法 )， 这 就 是 鸭子 类 型 。 因 此 ， 在 程 
序 中 ， 必 须 排除 由 对 象 的 类 所 产生 的 分 支 。 

这 是 由 “编程 达 人 ”大 卫 ' 托马斯 (Dave Thomas ) 所 提出 的 。 

例如 ， 假 设 存在 log_puts(out, mesg) 这 样 一 个 方法 ， 用 来 将 mesg 这 个 字符 串 输出 至 out 这 
个 输出 目标 中 。out 需要 指定 一 个 类 似 Ruby 中 的 IO 对 象 ， 或 者 是 Java 中 的 OutPutStream 这 样 
的 对 象 。 在 这 里 ， 本 来 是 向 文件 输出 的 日 志 ， 忽 然 想 输出 到 内 存 的 话 ， 要 怎么 办 呢 ? 比如 说 我 
想 将 日 志 的 输出 结果 合并 成 一 个 字符 串 ， 然 后 再 将 它 取 出 。 
















































































Q@ 13 的 阶乘 结果 为 6227020800， 而 Java 中 int 型 的 表示 范围 为 -2147483648 到 2147483647。 
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在 Java 等 静态 语言 中 ，out 所 指定 的 对 象 必须 拥有 共同 的 超 类 或 者 接口 ， 而 无 法 选择 一 个 
完全 无 关 的 对 象 作为 输出 目标 。 要 实现 这 样 的 操作 ， 要 么 一 开始 就 事先 准备 这 样 一 个 接口 ， 要 
么 重 写 原来 的 类 ， 要 么 准备 一 个 可 以 切换 输出 目标 的 包装 对 象 (wrapper object )。 无 论 如 何 ， 如 
有 果 没 有 事先 预计 到 需要 输出 到 内 存 的 话 ， 就 需要 对 程序 进行 大 幅 的 改动 了 。 


如 果 是 采用 了 鸭子 类 型 风格 的 动态 语言 ， 
象 具有 同样 行为 的 对 象 ， 并 将 其 指定 为 out 的 话 ， 即 便 不 对 程序 进行 改动 ，log_puts 方法 能 够 成 
FE 也 相当 大 。 实 际 上 ， 在 Ruby 中 ， 确 实 存 在 和 1IO 类 毫 无 继承 关系 ， 但 和 IO 有 具 
有 同样 行为 的 StringIO 类 ， 用 来 将 输出 结果 合并 成 字符 串 。 








功 执行 的 可 能 必 





动态 类 型 在 编译 时 所 执行 的 检查 较 少 ， 




















就 不 容易 产生 这 样 的 问题 。 只 要 准备 一 个 和 IO 对 





这 是 一 个 缺点 ， 但 与 此 同时 ， 程 序 会 变 得 更 加 简洁 ， 


对 于 将 来 的 扩展 也 具有 更 大 的 灵活 性 ， 这 便 是 它 的 优点 。 


仿 Structural Subtyping 





在 4 种 语言 中 最 年 轻 的 Go， 虽然 是 一 种 静态 语言 ， 但 却 吸 取 了 胸 子 类 型 的 优点 。Go 中 没 


有 所 谓 的 继承 关系 ， 而 某 个 类 型 可 以 具有 和 




















其 他 类 型 之 间 的 可 代 换 性 ， 也 就 是 说 ， 某 个 类 型 的 











变量 中 是 否 可 以 赋予 男 一 种 类 型 的 数据 ， 是 由 两 个 类 型 是 否 拥有 共同 的 方法 所 决定 的 。 例 如 ， 
对 于 “A 型 ”的 变量 ,只 要 数据 拥有 A 型 所 提 
像 这 样 ， 以 类 型 的 结构 来 确定 可 代 换 性 的 类 型 关系 ， 被 称 为 结构 子 类 型 ( Structural Subtyping ); 
另 一 方面 ， 像 Java 这 样 根据 声明 拥有 继承 关系 的 类 型 具有 可 代 换 性 的 类 型 关系 ,被 称 为 名 义 子 


类 型 ( Nominal Subtyping )。 


在 结构 子 类 型 中 ， 类 型 的 声明 是 必要 的 , 但 由 于 并 不 需要 根据 事先 的 声明 来 确定 类 型 之 间 
的 关系 ， 因 此 就 可 以 实现 鸭子 类 型 风格 的 编程 。 和 完全 动态 类 型 的 语言 相 比 ， 虽 然 增 加 了 对 类 
型 的 描述 ,但 却 可 以 同时 获得 鸭子 类 型 带 来 的 灵活 性 ， 以 及 静态 编译 所 带 来 了 类 型 检查 这 两 个 
优点 ， 可 以 说 是 一 个 相当 划算 的 交换 。 


依 小 结 





供 的 所 有 方法 ,那么 这 个 数据 就 可 以 赋值 给 该 变量 。 














在 这 里 ， 我 们 对 Ruby 、JavaScript、Java、Go 这 4 种 语言 ， 从 服务 絮 端 、 客 户 端 ， 以 及 带 态 、 
动态 这 两 个 角度 来 进行 了 对 比 。 这 4 种 语言 由 于 其 不 同 的 设计 方针 ,而 产生 出 了 不 同 的 设计 风格 ， 
大 家 是 否 对 此 有 了 些许 了 解 呢 ? 


不 仅仅 是 语言 ， 其 实 很 多 设计 都 是 权衡 的 结果 。 新 需求 、 新 环境 ， 以 及 新 范式 ， 都 催生 出 
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新 的 设计 。 而 学 习 现 有 语言 的 设计 及 其 权衡 的 过 程 ， 也 可 以 为 未 来 的 新 语言 打下 基础 。 
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2009 年 11 月 ，Google 发 布 了 一 种 名 为 Go 的 新 语言 ， 在 世界 范围 内 引发 了 秦 动 。 下 面 我 从 
个 编程 五 言 设 二 《 半 5 户 . 
人 编程 语 言 设计 者 的 角度 ， 来 展望 一 下 (1) New (新 的 ) 
Go 这 个 新 兴 的 编程 语言 。 (2) Experimental (实验 性 的 ) 
(3) Concurrent (并 发 的 ) 
作为 一 种 新 的 编程 语言 ，Go 宣扬 了 (4) Garbage-collected ( 带 垃 圾 回收 的 ) 
加 ” (5) Systems (系统 ) 


图 1 中 的 这 些 关 键 字 。 首 先 ， 我们 先 来 看 (6) Language 
看 这 些 关键 字 到 底 是 什么 意思 吧 。 图 1 ”Go 的 关键 字 






























































仿 New ( 新 的 ) 





几乎 每 一 个 新 的 编程 语言 在 发 布 的 时 候 都 会 被 问 及 这 样 一 个 问题 :“ 为 什么 要 创造 一 个 新 语 
言 呢 ? ”Ruby 发 布 的 当时 也 有 很 多 人 这 样 问 过 ， 我 给 出 的 是 “只 是 因为 想 做 做 看 而 已 啊 ” 这 人 么 
个 不 着 调 的 回答 。 不 过 Go 的 开发 者 们 说 ， 这 个 新 语言 是 由 于 对 现 有 语言 的 不 满 才 诞 生出 来 的 。 














在 这 10 年 中 ， 有 很 多 新 的 编程 语言 相继 诞生 ， 并 获得 一 定 程度 的 应 用 ， 其 中 大 多 数 都 是 以 
Ruby 为 代表 的 动态 语言 ， 但 是 ， 能 触及 C 和 C++ 领域 的 新 的 系统 编程 语言 却 迟 迟 没有 出 现 。 








另 一 方面 ， 编 程 语言 所 面临 的 状况 也 在 不 断 发 生变 化 ， 如 网 络 的 普及 、 多 核 ` 大 规模 集群 等 ， 
而 重视 性 能 的 系统 编程 语言 却 没有 对 这 样 的 变化 做 出 应 对 。Go 语言 的 开发 者 们 主张 ， 正 是 因为 
这 样 的 局 面 ， 才 使 得 创造 一 种 开发 效率 更 高 的 系统 编程 语言 变 得 十 分 必要 。 






































傅 Experimental ( 实验 性 的 ) 





一 种 编程 语言 从 出 现 到 实用 化 所 要 经 历 的 时 间 之 长 ， 超 乎 普通 人 的 想象 。 以 Ruby 为 例 ， 从 
开始 开发 到 发 布 用 了 3 年 左右 的 时 间 ， 而 到 了 在 程序 员 圈 子 中 拥有 一 定 知名 度 则 又 花 了 4 年 的 


时 间 ， 而 再 到 通过 Ruby on Rails 而 走红 ， 则 又 花 了 5 年 的 时 间 。 
































相 比 之 下 ， 从 2007 年 末 开 始 开发 的 Go， 只 经 过 了 2 年 左右 的 开发 ， 在 发 布 之 时 就 获得 了 
全 世界 的 关注 ， 我 表示 实在 是 羡 莫 之 极 。 但 即便 如 此 ，Go 所 吸收 的 那些 新 概念 是 否 能 真正 被 世 
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界 所 接受 ， 现 在 还 是 个 未 知 数 。 从 这 个 意义 上 来 看 ， 应 该 说 它 还 只 是 一 种 实验 性 的 语言 。 





仿 Concurrent ( 并 发 的 ) 





在 21 世纪 的 今天 ， 并 发 编程 变 得 愈 发 重要 。 需 要 同时 处 理 大 量 并 发 访问 的 网 络 应 用 程序 ， 
本 来 就 更 加 适合 并 发 编程 ， 而 对 于 不 断 增 大 的 处 理 信息 量 ， 分 布 式 并 发 编程 又 是 一 个 很 好 的 解 
决 方案 ， 因 而 备 受 期 待 。 


























此 外 ， 要 最 大 限度 地 利用 多 核 ， 甚 至 是 超 多 核 ( Many-core ) 环境 的 CPU 性 能 ， 并 发 编程 
也 显得 尤为 重要 。 

因此 ,为 了 实现 更 高 开发 效率 的 并 发 编程 ， 编 程 语言 本 里 也 必须 具备 支持 并 发 编程 的 功能 ， 
这 已 经 成 为 一 种 主流 的 设计 思路 。 近 年 来 ， 像 Erlang 这 样 以 并 行 计算 为 中 心 的 编程 语言 受到 了 
广泛 的 关注 ， 也 正 是 由 于 上 述 背 景 所 引起 的 。 



















































































然而 ， 当 前 主流 的 系统 编程 语言 中 ， 并 没有 哪 种 语言 在 语言 规格 层面 上 考虑 到 了 并 发 编程 。 
我 想 ， 正 是 这 一 点 成 为 了 Go 开发 的 契机 。 














仿 Garbage-collected ( 带 垃圾 回收 的 ) 
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将 不 需要 的 对 象 自动 进行 回收 ， 从 而 实现 对 内 存 空间 的 循环 利用 ， 这 种 垃圾 回收 (GC) 机 
制 在 40 多 年 前 出 现 的 Lisp 等 编程 语言 中 已 经 是 常识 了 。 在 需要 大 量 操 作对 象 的 程序 中 ， 对 于 
某 个 对 象 是 否 还 要 继续 使 用 , 是 很 难 完全 由 人 来 把 握 和 判断 的 。 然 而 , 如 果 对 象 的 管理 出 现 问题 ， 
便 会 导致 十 分 严重 的 bug。 


如 果 忘 记 对 不 需要 的 对 象 进行 释放 ， 程 序 所 占用 的 内 存 容 量 就 会 不 断 增 大 ， 从 而 导致 内 存 
泄漏 (Memory leak ) bug; 反 过 来 ， 如 果 释 放 了 仍然 在 使 用 中 的 对 象 ， 就 会 导致 内 存 空间 损坏 
的 悬空 指针 ( Dangling pointer ) bug。 


























这 两 种 bug 都 有 一 个 特点 ， 就 是 出 问题 的 地 方 ， 和 实际 引发 问题 的 地 方 往 往 距 离 很 远 ， 因 
此 很 难 被 发 现 和 修复 。 所 以 我 认为 ， 在 具备 一 定 面向 对 象 功 能 的 编程 语言 中 ，GC 是 不 可 或 缺 的 
一 个 机 制 。 














使 GC 走 进 普通 的 编程 领域 ， 并 得 到 广泛 的 认 知 ， 不 得 不 说 是 Java 所 带 来 的 巨大 影响 。 在 
Java 之 前 ， 大 家 对 GC 的 主流 观点 ， 要 么 认为 它 在 性 能 上 有 问题 ， 要 么 认为 它 在 系统 编程 中 是 
不 需要 的 。 像 C++ 这 样 的 系统 编程 语言 中 ， 没 有 提供 GC 机 制 ， 应 该 也 是 出 于 这 个 原因 吧 。 
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2 人 Go 

















然而 ， 现 在 情况 变 了 。 作 为 21 世纪 的 系统 编程 语言 ，Go 具备 了 GC 机 制 ， 从 而 减轻 了 对 
象 管理 的 消耗 ， 程 序 员 的 负荷 也 跟着 减轻 ， 从 而 使 得 开发 效率 得 到 了 提高 。 


仿 Systems ( 系统 ) 








刚刚 我 们 不 断 提 到 系统 编程 语言 这 个 说 法 ， 


言 呢 ? 











那么 系统 编程 语言 到 底 指 的 是 怎样 一 类 编程 语 

















至 于 严格 的 定义 ， 其 实 我 也 不 是 十 分 清楚 ， 不 过 从 印象 来 说 ， 应 该 指 的 是 可 以 用 来 编写 操 
作 系 统 的 ， 对 性 能 十 分 重视 的 语言 吧 。 从 定位 上 来 说 ， 应 该 说 是 C 和 C++ 所 履 盖 的 那 片 领域 。 























的 确 ,在 这 个 领域 最 广泛 使 用 的 语言 中 ， 即 便 是 最 新 的 C++ ( 1983 年 ) 也 绝 不 能 算是 “新 ” 
了 。 而 无 法 编译 出 可 直接 运行 的 代码 ( 原本 在 设计 上 就 不 会 编译 出 这 样 的 代码 ) 的 Java， 又 很 
难 用 作 系 统 编程 语言 ， 而 且 Java 发 布 于 1995 年 ， 到 现在 也 已 经 过 了 10 多 年 了 。 




















更 进一步 说 ， 由 于 Java 本 身 就 是 设计 为 在 JVM 中 运行 的 ， 因 此 即便 通过 JIT 等 最 新 技术 实 
现 了 高 速 化 ， 我 觉得 也 很 难 称 其 为 是 一 种 系统 编程 语言 。 











在 Google 中 ， 由 于 对 海量 数据 和 大 规模 集群 处 理 有 较 大 的 需求 ， 因 此 便 愈 发 需要 一 种 高 性 


能 的 编程 语言 。 然 而 ， 为 了 避免 使 用 过 多 种 编程 语言 所 造成 的 管理 成 本 上 升 ，Google 公司 对 官 


方 项 目 中 能 够 使 用 的 语言 进行 了 严格 的 限制 ,只 有 C、C++、Java、JavaScript 和 Python 这 5 种 "。 

















用 于 基础 架构 等 系统 编程 的 C 和 C++、 兼 具 高 开发 效率 和 高 性 能 的 Java、 用 于 客户 端 编程 


的 JavaScript， 












































再 加 上 高 开发 效率 的 动态 语言 Python ， 我 认为 这 是 一 组 十 分 均衡 的 选择 。 


不 过 ， 仔 细 看 看 的 话 ， 用 于 系统 编程 的 C 和 C++ 则 显得 有 些 古 老 ， 对 于 最 近 获 得 广泛 认 知 
的 ， 从 语言 层面 对 开发 效率 的 支持 机 制 (如 GC 等 ) 显得 不 足 。Go 的 出 现 ， 则 为 这 一 领域 带 来 
了 一 股 清新 的 风 ， 也 可 以 说 ，Go 是 Google 表达 对 于 系统 编程 语言 不 满 的 一 个 结果 。 





饼 Go 的 创造 者 们 











领导 Go 项 目的 ， 主 要 有 下 面 这 些 人 : 罗 勃 :派克 (Rob Pike )、 肯 : 汤 普 逊 (Ken Thompson )、 





@ 不 过 ,在 非 官方 的 项 目 中 就 没有 这 样 的 限制 ， 比 如 在 Google 公司 内 部 也 有 很 多 Ruby 程序 员 。 貌 似 他 们 在 官方 





项 目 中 使 











用 Java 和 Python ， 而 在 非 官方 项 目 中 则 使 














Ruby。 
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Robert Griesemer、Ian Lance Taylor、Russ Cox。 其 中 ， 罗 勃 ， 派克 和 肯 : 汤 普 逊 是 超级 名 人 。 肯 
: 汤 普 逊 是 曾经 最 早 创造 UNIX 的 人 ,也 是 参与 过 B 语 言 和 Plan 9" 操 作 系 统 开发 的 传说 中 的 黑客 。 














对 我 来 说 ， 风 勃 ， 派克 和 布 莱 恩 ' 柯 林 汉 “合作 的 名 著 《UNIX 编程 环境 》 给 我 留 下 了 很 深 
的 印象 ， 除 此 之 外 ， 罗 勃 ， 派克 在 AT&T 贝尔 实验 室 也 贡献 了 诸多 成 果 ， 如 在 Plan 9 的 开发 中 
扮演 了 重要 的 角色 。 要 说 他 离 我 们 最 近 的 一 项 功绩 ， 英 过 于 UTF-8 的 开发 了 ， 这 也 是 和 上 表 … 汤 
普 逊 的 共同 成 果 。 如 果 没 有 他 们 的 话 ， 佑 计 现 在 世界 已 经 被 那个 超 烂 的 UTF-16 占领 了 吧 ， 想 
到 这 里 ， 我 不 蔡 充 满 了 感激 之 情 。 


[= 
也 











拭 二 要 = 蕊 
百 不 / 


然 可 能 有 私 情 的 成 分 ， 但 这 样 的 开发 者 所 创造 出 的 Go， 一 定 是 颇 受 UNIX， 特 别 是 C 语 


啊 的 ， 甚 至 可 以 说 它 就 是 现代 版 的 C 语言 。 因 此 ， 下 面 我 们 就 通过 和 C 语言 的 对 比 ， 为 大 
家 介绍 一 下 Go。 




















人 Hello World 

















Hello World 可 以 说 是 介绍 编程 语言 的 文章 所 必需 的 ， 如 图 2 所 示 。 这 里 面 “ 世 界 ” 两 个 字 
并 不 是 我 故意 给 写成 汉字 的 ， 而 是 罗 过 * 派克 原始 的 Hello World 程序 就 是 这 么 写 的 。 也 许 是 为 
了 证 明 罗 勃 ， 派克 是 开发 者 之 一 的 缘故 吧 ， 这 上段 程序 表明 ， 只 要 使 用 UTF-8 字符 串 ， 就 可 以 自 
由 驾驭 Unicode。 不 过 ， 貌 似 标 识 符 还 是 只 能 用 英文 和 数字 。 



































package main < 这 上 段 程序 属于 名 为 “main” 的 包 
import "fmt"” < 使 用 名 为 “fmt” 的 包 


func main () { 


fmt.Printf("Hel1l10, 世界 \n"); < 使 用 fmt 包 中 的 Printf 函 数 
} 











图 2 用 Go 编写 的 Hello World 
只 能 引用 公有 函数 ， 因 此 包 名 的 圆 点 后 面 跟着 的 标识 符 总 是 


识 符 总 是 大 写字 母 开 头 。 
在 我 的 印象 中 ，Go 和 C 语言 果然 还 是 很 相似 的 。 当 然 也 有 一 些 不 同 之 处 ， 例 如 package 和 
import 等 对 包 系 统 的 定义 ， 以 及 末尾 的 分 号 可 以 省 略 等 等 。 


































































































Printf 中 的 P 是 大 写字 母 ， 这 一 点 挺 引 人 注 目的 ， 其 实 它 的 背后 代表 了 一 条 规则 ， 即 大 写字 


母 开 头 的 名 称 表示 可 以 从 包 外 部 访问 的 公有 对 象 ， 而 小 写字 母 开 头 的 名 称 表示 只 能 从 包 内 部 访 





GD Plan 9, 全 称 Plan 9 from Bell Labs ( 贝尔 实验 室 九 号 计划 ), 是 贝尔 实验 室 从 20 世纪 80 年 代 中 期 到 2002 年 为 止 ， 
以 研究 UNIX 后 续 可 能 性 为 主要 目的 而 开发 的 操作 系统 。 

@) 布 莱 恩 。 柯 林 汉 ( Brian Kernighan，1942 一 
开发 者 之 一 。 现 在 普林斯顿 大 学 任教 。 























) 是 一 位 加 拿 大 计算 机 科学 家 ， 曾 任职 于 贝尔 实验 室 ， 是 UNIX 的 
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问 的 私有 对 象 。 由 于 有 了 这 条 规则 ，Go 中 几乎 所 有 的 方法 名 都 是 大 写字 母 开头 的 。 


饼 Go 的 控制 结构 








下 面 我 们 来 更 加 深入 地 了 解 一 下 Go 吧 。 


首先 我 们 从 控制 结构 开始 看 。Go 主要 的 控制 结构 有 这、switch 和 for 三 种 ， 而 并 没有 
while，while 用 for 代替 了 。 我 们 先 来 讲 一 下 直 结 构 。 


Go 的 站 结构 语法 规则 如 图 3 所 示 。 if 条 件 1 {程序 体 1} 


else if 条 件 2 { 程 序 体 2} 
其 中 else if 的 部 分 可 以 有 任意 个 。Go 的 站 结构 和 CC 的 else {程序 体 3} 


计 结 构 很 相似 ， 不 过 有 几 点 区 别 。 图 3 Go 的 控制 结构 




















首先 ， 和 C 语言 不 同 ，Go 中 站 等 结构 中 的 条 件 部 分 并 不 用 括号 括 起 来 ， 而 相应 地 ， 程 序 
体 的 部 分 则 是 必须 用 花 括 号 括 起 来 的 。 























还 有 一 点 不 是 很 明显 ， 那 就 是 “必须 括 起 来 ”这 条 规则 实际 上 非常 重要 。C 语言 的 规则 是 
这 样 的 ， 当 程序 体 包含 多 行 代码 时 ， 需 要 用 花 括 号 括 起 来 使 其 成 为 一 体 。 但 这 样 的 规则 下 ，if 
结构 的 语法 便 会 产生 攻 义 。 








例如 : 
if (条 件 ) if (条 件 ) 语句 else 语句 


这 样 的 C 语言 程序 ， 到 底 是 解释 为 : 





jf 
if (条 件 ) 语句 
else 语 多 


j 
还 是 解释 为 : 
if (条 件 ) { 
if (条 件 ) 语句 
由 


else 语句 


貌似 很 难 抉择 。 


这 个 问题 被 称 为 “悬挂 else 问题 "。 在 C 语言 中 ,虽然 存在 “有 歧义 的 else 属于 距离 较 近 
的 站 语句 ”这 样 一 条 规则 ， 但 还 是 避免 不 了 混乱 的 发 生 。 
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然而 ， 如 果 有 了 “程序 体 必 须 用 花 括 号 括 起 来 ”这 条 规则 ， 就 不 会 产生 这 样 的 歧义 了 。 从 
这 个 角度 来 看 ， 不 允许 省 略 花 括 号 着 实 是 一 个 好 主意 。 在 其 他 广泛 应 用 的 主流 语言 中 ，Perl 的 
语法 也 不 允许 省 略 花 括 号 。 











说 句 题 外 话 , Ruby 在 控制 结构 的 划分 中 , 没有 使 用 花 括 号 , 而 是 使 用 end, 理由 也 是 一 样 的 。 
像 Ruby 这 样 使 用 end 的 语言 中 ， 也 可 以 避免 因 蕙 挂 导 致 的 玻 义 。 








和 fj 去 何 还 有 一 点 与 C1 到 言 不 后 
Go 的 让 语句 还 有 点 与 C 语 言 不 同 ， I ve ye NO 








那 就 是 在 条 件 部 分 可 以 允许 使 用 初始 化 fmt.Printf("%d < 10\n", v); 

、 ] 

语句 ， 具 体 示例 如 图 4 所 示 。 人 
} 


将 初始 化 语句 移动 到 让 结构 的 前 面 ， 
意思 也 不 会 发 生变 化 ,但 将 初始 化 语句 
放 在 条 件 部 分 中 ， 可 以 更 加 强调 是 对 f 的 返回 值 进行 判断 这 一 意图 。 我 们 后 面 要 讲 到 的 “逗号 
OK” 形 式 中 ,这 种 初始 化 方式 也 非常 奏效 。 











妈 4 条 件 部 分 可 以 使 用 初始 化 语句 

















switch 也 是 从 C 语言 来 的 ， 但 也 有 本 
些微 妙 的 差异 。 和 让 结构 一 样 ， 条 件 表 case 0: fmt.Printf("0"); 
达 式 不 用 括号 括 起 来 ， 而 程序 体 必须 用 人 me pir fC OE: 
花 括号 括 起 来 (图 5 )。 








和 5 ”Go 的 switch 结构 
当 没 有 满足 条 件 的 case 时 则 执行 default 部 分 ， 这 一 点 和 C 语言 是 相同 的 。 但 是 ， 和 C 语 
言 相 比 ，Go 的 switch 结构 还 存在 下 面 这 些 差异 : 











口 即便 没有 break， 分 支 也 会 结束 
口 case 中 可 以 使 用 任意 的 值 
口 分 支 条 件 表达 式 可 以 省 略 





switch 中 的 break 语法 很 诡异 ， 堪 称 C 语言 中 最 大 的 谜 ， 趁 这 个 机 会 正好 改 一 改 。 在 上 面 
的 例子 中 ， 也 不 存在 用 于 分 隔 的 break 呢 。 相 应 地 ，case 则 可 以 并 列 多 个 条 件 。 


虽说 Go 从 C 语言 中 继承 了 很 多 东西 ， 但 也 没有 必要 连 这 些 也 一 起 继承 过 来 。 然 而 ，Go 中 
却 追 加 了 一 条 新 的 语法 ， 即 case 的 程序 体 以 fallthrough 语句 结束 时 ， 会 进入 下 面 一 个 分 支 。 这 
样 真 的 有 必要 吗 ? 我 觉得 这 只 是 一 种 对 C 语言 单纯 的 怀念 而 已 吧 。 














C 语言 的 switch 中 ，case 可 以 接受 的 值 只 能 是 整数 、 字 符 、 枚 举 等 编译 时 已 经 确定 的 值 ， 
这 应 该 是 考虑 了 为 用 表 实 现 的 分 支 进行 优化 的 结果 ， 而 break 的 存在 也 可 以 看 成 是 由 以 前 的 汇 
编 语言 编 程 派生 而 来 。 
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于 是 ， 在 汇编 语言 已 经 十 分 罕见 的 现在 ， 这 种 语法 成 为 一 个 “ 谜 ” 也 是 没有 办 法 的 事 ， 但 
在 Go 中 就 没有 这 样 的 制约 了 。 








最 后 ，Go 还 有 一 种 独 有 的 ， 很 有 趣 


Switch { 
的 语法 ， 那 就 是 switch 语句 中 判断 分 支 case a < b: return -1; 
a NT A . 二 == b: t 0 
条 件 的 表达 式 是 可 以 省 略 的 (图 6)。 这 人 





其 实 可 以 看 成 是 用 一 种 更 易 读 的 方式 来 】 
实现 一 个 让 else 结构 ， 实 际 上 编译 出 来 6 分支 条 件 表 达 式 可 以 省 略 
的 结果 貌似 也 是 一 样 的。 








网 





























有 趣 的 是 ，Ruby 的 case 结构 也 可 以 

















case 
写成 同样 的 形式 ， 用 Ruby 编写 出 来 的 程 when a < b: return -1 

上 Su Ne Ss 各 when a == b: return 0 
序 如 图 7 所 示 。 那 个 ， 我 并 不 是 说 Go 是 when a > b: return 1 
抄袭 Ruby 哦 ， 没 有 证 据 证 明 这 一 点 ， 而 na 

















且 我 也 觉得 不 大 可 能 会 抄 Ruby， 不 过 说 图 7 Ruby 中 也 可 以 省 略 分 支 条 件 表达 式 
实话 ， 我 还 真 小 小 地 动 过 一 点 这 个 念 
万 一 是 真 的 呢 ? ( 笑 ) 


























for 结构 也 和 C 语言 非常 相似 。 和 这 结构 一 样 ， 条 件 表 达 式 不 需要 用 括号 括 起 来 ， 但 循环 
体 则 必须 用 花 括 号 括 起 来 ， 除 此 之 外 ， 还 有 一 些 地 方 和 C 语言 有 所 不 同 。 





首先 ，Go 的 for 语句 中 ， 条 件 部 分 的 表达 式 有 两 种 形式 : 单 表达 式 形式 和 三 表达 式 形式 。 
其 中 单 表 达 式 形式 和 C 语言 中 的 while 语句 功能 是 相同 的 。 








for 条 件 {循环 体 } 

三 表达 式 形式 则 和 C 语言 的 for 语句 是 相同 的 。 
for 初始 化 ; 条 件 ; 更 新 {循环 体 } 

因此 ， 编 写 出 来 的 循环 代码 和 C 语言 几乎 是 一 样 的 : 
To 0s dle ae 


) 




















有 趣 的 是 ,在 Go 中 ，++ 递增 并 不 是 表达 式 ， 而 是 作为 语句 来 处 理 的 。 此 外 ， 由 于 没有 类 
似 C 语言 中 逗号 操作 符 的 形式 ， 因 此 for 的 条 件 部 分 无 法 并 列 多 个 表达 式 。 如 果 要 对 多 个 变量 
进行 初始 化 ， 可 以 使 用 多 重 赋值 : 
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让 让 但 


} 

在 for 语句 中 ， 空 白 表 达 式 表示 真 ， 因 此 : 
On 
有 


就 表示 无 限 循环 ， 在 C 语言 中 也 是 一 样 的 。 






































循环 可 以 通过 break 和 continue 来 中 断 ， 这 两 个 语 Loop: homo ONE 
句 的 意思 和 C 语言 是 一 样 的 ， 不 过 Go 中 可 以 通过 标 SEE TTY 
本 case 0, 1, 2: break Loop 
签 来 指定 到 底 要 跳出 哪 一 个 循环 ( 图 8 )。 } 
加 人 
这 一 点 又 有 点 像 Java 的 风格 了 ， 看 来 Go 的 设计 } 
真是 研究 和 参考 了 其 他 多 种 语言 呢 。 辐 8 ”用 标签 来 指定 要 跳出 的 循环 














作为 控制 结构 来 说 ， 还 有 一 些 像 go 语句 这 样 与 并 发 编程 关系 密切 的 方式 ， 我 们 稍 后 再 来 详 


细 介绍 。 





饼 类 型 声明 











正如 我 们 刚才 所 举 的 这 些 例子 ，Go 是 一 种 深 受 C 语言 (不 是 C++ ) 影响 的 语言 。 不 过 ， 
Go 也 有 和 其 他 一 些 C 派生 语言 不 同 的 地 方 ， 其 中 最 具有 特色 的 就 是 其 类 型 声明 了 。 简 单 来 说 ， 
Go 的 类 型 声明 和 C 语言 是 “正好 相反 ”的 。 








C 语言 中 ， 类 型 声明 的 基本 方式 是 : 


不 过 ， 由 于 存在 用 户 自 定义 类 型 ， 因 此 当 遇 到 某 个 “名 称 ” 开 头 的 一 行 代码 时 ， 很 难 一 眼 
就 判断 出 来 这 到 底 是 类 型 声明 ， 还 是 函数 调用 ， 或 者 是 变量 引用 。 











对 人 类 来 说 存在 攻 义 的 表达 方式 ， 对 编译 需 来 说 也 就 意味 着 需要 更 复杂 的 处 理 才 能 区 分 。 
因此 ，Go 中 规定 : 声明 必须 以 保留 字 开 头 ， 且 类 型 位 于 变量 名 之 后 。 



































根据 这 两 条 规则 ，Go 的 声明 如 图 9 所 示 。 从 深 受 C 语言 影响 这 个 印象 来 说 ， 这 还 真是 令 
震惊 ,不 过 习惯 之 后 也 就 不 觉得 那么 特殊 了 。 这 样 的 描述 方式 可 以 减少 卜 义 ,无 论 是 对 人 还 








法 >> 
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TS 


译 需 来 说 都 更 加 友好 。 


“=” 赋 值 也 颇具 魅力 。“:=” 赋 值 语 句 表示 在 赋 
值 的 同时 将 左 侧 的 变量 声明 为 右 侧 表达 式 的 类 型 。 























采用 静态 类 型 的 语言 中 ， 由 于 需要 大 量 对 类 型 的 
描述 ， 因 此 程序 会 通常 会 显得 比较 宛 长 , 但 在 Go 中 
由 于 可 以 省 略 类 型 声明 ， 因 此 可 以 让 程序 变 得 更 加 简 
洁 。 虽 说 如 此 ， 但 这 种 类 型 推导 并 非 像 某 种 函数 型 语 
言 一 样 完美 ， 因 此 Go 也 并 非 完全 不 需要 类 型 声明 。 















































Go 中 没有 C++ 的 模板 (Template )， 也 没有 Java 

的 泛 型 (Generic )， 但 仅 靠 内 置 的 数组 ( Array )、 切 
片 (Slice )、 字 典 (Map )、 通 道 (Channel ) 等 类 型 ， 
就 可 以 指定 其 他 的 类 型 。 切 片 是 Go 特有 的 一 种 类 型 ， 
粗略 来 说 ， 也 可 以 理解 成 是 数组 的 指针 ; 字典 则 类 似 
进 

















Ruby 中 的 Hash; 通道 用 于 并 发 编程 ， 因 此 稍 后 再 
行 介 绍 。 






































// 字符 串 数组 
Manmean ns Erling 


// 字符 串 切 片 
wialmes eo lsdg 


// int 到 字符 串 的 字典 
var mmap [intjstring 
// int 管 道 

Vaipee mehaneunG 





| 











// 新 类 型 的 声明 

type T struct { 
Xine 

] 


// 常量 的 声明 
const N = 1024 


// 变量 的 声明 
var tl T= new(T) 


// 变量 声明 的 简略 形 
2 mewa 


// 还 可 以 声明 指针 
Viametee < ut 


// 函数 声明 
humemee ut oate 


} 


// 函数 声明 ( 多 个 返回 值 ) 
fume 2 ior 


9 ”Go 的 声明 





目前 ， 由 于 Go 没有 支持 泛 型 ， 因 此 无 法 定义 类 型 安全 的 用 户 自 定义 集合 。 


要 取出 用 户 自 定义 集合 的 元 素 ， 需 要 使 用 Cast。 
Cast 的 语法 如 下 : 


fm stack get Gfloaty 


Cast 在 执行 时 会 进行 类 型 检查 ， 这 让 人 不 禁 想 起 支持 泛 型 之 前 的 早期 Java 呢 。 
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在 Go 的 FAQ 中， 并 没有 否定 将 增加 泛 型 的 可 能 性 ， 只 不 过 优先 级 比较 低 ， 此 外 ， 随 着 对 
泛 型 的 支持 ， 类 型 系统 会 变 得 非常 复杂 ， 从 这 些 因 素来 考虑 的 话 ， 暂 时 还 没有 支持 泛 型 的 计划 。 
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不 过 , 个 人 推测 既然 早晚 要 支持 泛 型 , 那么 现在 是 不 是 应 该 让 现 有 的 复合 类 型 (数组 .切片 、 
字典 等 ) 的 声明 更 具有 统一 性 呢 ? 


饼 无 继承 式 面 向 对 象 
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了 解 了 Go 语言 之 后 ， 从 个 人 观点 来 看 ， 我 感触 最 深 的 ， 英 过 于 其 面向 对 象 功能 了 。Go 虽 
然 是 一 种 静态 语言 ， 但 却 拥 有 用 起 来 感觉 和 动态 语言 相近 的 面向 对 象 功能 。 




















这 其 中 最 大 的 特征 就 是 无 继承 ,但 它 也 不 是 基于 原型 ( Prototype ) 那样 的 实现 方式 。Go 的 
面向 对 象 机 制 和 其 他 语言 大 相 径 庭 ， 所 以 一 开始 很 容易 搞 得 一 头 筋 水 。 








首先 ，Go 中 几乎 所 有 的 值 都 是 对 象 ， 而 对 象 
就 可 以 定义 方法 。Go 的 方法 是 一 种 “指定 了 接收 
器 (Receiver ) 的 函数 "， 具 体 如 图 10 所 示 。 


func (p xpPoint ) Move (x, y float) { 











区 





10 ”Go 的 方法 定义 中 指定 了 接收 器 








函数 名 (Move ) 前 面 用 括号 括 起 来 的 部 分 
“p *Point” 就 是 接收 需 。 接 收 需 的 名 称 也 必须 逐一 指定 ， 这 一 点 挺 麻烦 的 ， 不 由 得 让 人 想到 
Python 。 








有 趣 的 是 ， 方 法 的 定义 和 类 型 的 定义 可 以 在 完全 不 同 的 地 方 进行 。 这 有 点 像 C# 中 的 扩展 方 
法 ， 即 可 以 向 现 有 类 型 中 添加 新 的 方法 。 





貌似 像 nt 这 样 的 内 置 类 型 不 能 直接 添加 方法 ， 不 过 我 们 可 以 给 它 起 个 别名 叫 init， 然 后 再 
向 这 个 类 型 添加 方法 。 








方法 的 调用 方式 还 是 比较 普通 的 : 





p.Move (100.0, 100.0) 


和 CC 语言 不 同 ,语言 本 身 可 以 区 分 是 否 为 指针 ， 因 此 不 需要 自己 判断 是 用 “.” 还 是 “->”。 

















由 于 Go 没有 继承 ， 因 此 通常 的 变量 没有 多 态 性 ， 方 法 调用 的 连接 是 静态 的 。 换 一 种 更 加 易 
懂 的 说 法 ,也 就 是 说 ,如 果 变 量 p 是 Point 型 的 话 , 则 p.Move 必 定 表示 调用 Point 型 中 的 Move 方 法 。 














然而 ， 如 果 只 有 项 态 连 接 的 话 ， 作 为 面向 对 象 编程 语言 来 说 就 缺少 了 一 个 重要 的 功能 。 
此 在 Go 中 ， 通 过 使 用 接口 ( Interface )， 就 实现 了 动态 连接 。 

















Go 的 接口 和 Java 的 接口 相似 ， 是 不 具备 实现 的 方法 的 集合 ， 具 体 定义 如 下 : 
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type Writer interface { 
Write (p [lbyte) int 
} 


interface 正文 中 出 现 的 只 可 能 是 方法 的 类 型 声明 ,因此 不 需要 保留 字 func 和 接收 如 类 型 。“ 不 
写 不 需要 的 东西 ” 正 是 Go 的 风格 。 





























作为 未 实现 的 类 ( 类 型 )， 接 口中 只 定义 了 方法 的 类 型 ， 而 它 本 身 也 是 一 个 类 型 ， 因 此 可 以 
用 于 变量 和 参数 的 声明 中 。 于 是 ， 只 有 通过 接口 来 调用 方法 时 ， 才 会 进行 动态 连接 。 














虽然 语法 有 些 差异 ， 但 大 体 上 和 Java 的 接口 还 是 非常 相似 的 。 由 于 没有 继承 ， 因 此 只 能 通 
过 接口 来 实现 动态 连接 ， 这 样 便 增加 了 静态 链接 的 几率 ,提升 了 运行 效率 ,这 一 点 很 有 意思 ， 
不 过 也 没有 什么 更 大 的 好 处 了 。 

















Go 的 接口 中 令 人 感到 惊讶 的 一 点 ， 就 是 某 个 类 型 对 于 是 否 满足 某 个 接口 ， 不 需要 事先 进行 
声明 。 














在 Java 中 ， 如 果 某 个 类 在 定义 时 用 implements 子 句 对 接口 进行 了 声明 ， 则 表示 该 类 一 定 满 
足 这 个 接口 。 然 而 ,在 Go 中 , 无 论 任何 类 型 ， 只 要 是 接口 中 定义 的 方法 〈 群 ) 所 拥有 的 类 型 ， 
就 都 能 满足 该 接口 。 






































以 上 述 Writer 接口 为 例 ， 只 要 一 个 对 象 拥有 接受 byte 切片 的 Write 方法 ， 就 可 以 进行 代入 。 
通过 这 个 变量 来 调用 方法 的 话 ， 就 会 根据 对 象 选 择 合适 的 方法 来 进行 调用 。 





























这 不 就 是 动态 语言 所 推崇 的 鸭子 类 型 吗 ? 明 明 是 一 种 静态 语言 ， 却 如 此 轻易 地 实现 了 鸭子 
类 型 ， 让 人 人 情 何 以 堪 。 


例如 ， 我 们 前 面 经 常 提 到 的 fmt.Printf 方法 ， 它 的 参数 应 该 具有 String() 方法 。 


反 过 来 说 ， 只 要 对 String() 方法 进行 重新 定义 ， 就 可 以 控制 fmt.Printf 方法 的 输出 。 其 实 ， 
在 我 上 学 的 时 候 ， 曾 经 对 静态 类 型 的 面向 对 象 语言 十 分 着 迷 ， 也 曾经 模 模 糊糊 地 设想 过 类 似 这 
样 的 一 个 机 制 ， 但 当时 的 我 还 没有 能 力 将 它 实现 出 来 。 























Go 所 提供 的 面向 对 象 功能 十 分 简洁 ， 但 却 兼 具 了 类 型 检查 和 觅 子 类 型 ( 虽然 当时 还 没有 这 
么 一 个 专 有 名 词 ) 两 者 的 优点 ， 这 是 何等 优秀 的 设计 啊 ! 我 非常 感动 。 





那么 ,动态 连接 就 通过 接口 这 一 形式 实现 了 。 然 而， 接口 却 无 法 实现 继承 所 具备 的 男 一 项 
功能 ， 即 “实现 的 共享 "。 在 Java 中 ， 即 便 使 用 接口 也 无 法 共享 实现 ， 因 此 大 家 普遍 使 用 结合 
体 (composite ) 这 一 技术 。 
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对 于 这 一 点 ，Go 也 考虑 到 了 。 在 Go 中 ， 如 果 将 结构 体 的 成 员 指定 为 一 个 匿名 类 型 ， 则 该 
类 型 就 被 伐 入 到 结构 体 中 。 在 这 里 很 重要 的 一 点 是 ， 艇 人 的 类 型 中 所 拥有 的 成 员 和 方法 也 被 一 








并 包含 到 结构 体 中 ， 事 实 上 这 相当 于 是 多 重 继承 呢 。 这 样 一 来 ， 大 家 可 能 会 想 ， 成 员 和 方法 的 
名 称 会 不 会 发 生 重 复 呢 ? Go 是 通过 下 列 这 些 独 特 的 规则 来 解决 这 一 问题 的 : 











口 当 重 复 的 名 称 位 于 不 同 层级 时 ， 外 层 优先 

口 当 位 于 相同 层级 时 ， 名 称 重复 并 不 会 引发 错误 

口 只 有 当 拥 有 重复 名 称 的 成 员 被 访问 时 ， 才 会 出 错 

口 访问 名 称 重复 的 成 员 时 ， 和 需要 显 式 指定 舱 入 的 类 型 名 称 














最 后 一 条 规则 好 像 不 是 很 容易 看 履 ， 我 们 来 看 一 个 示例 ( 图 11 )。 





在 图 11 中 ,结构 体 C 和 敌人 在 其 中 的 结 
构 体 B 都 拥有 z 这 一 名 称 重复 的 成 员 。 然 而 ， 
由 于 z 位 于 外 层 ， 因 此 是 优先 的 。 如 果 要 访问 
在 B 中 定义 的 z,， 则 需要 使 用 B.z 这 样 的 名 称 。 











结构 体 A 和 结构 体 B 都 拥有 y 这 一 名 称 
重复 的 成 员 。 因 此 ,包含 A 和 B 两 个 和 谍 入 类 
型 的 结构 体 C 中 ， 两 个 重复 的 y 成 员 位 于 同一 
层级 。 














tyDes A Str 


yn 
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type B struct { 
We Ze ME 
J 
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图 11 重复 时 的 优先 级 示例 








于 是 , 当 引 用 结构 体 C 的 y 成 员 时 ,就 会 出 错 。 在 这 种 情况 下 ,就 需要 显 式 指定 结构 体 的 名 称 ， 





如 A.y、B.y， 这 样 来 访问 成 员 才 不 会 出 错 。 这 种 设计 真是 相当 巧妙 。 


多 值 与 多 重 赋值 








如 前 所 述 ，Go 的 函数 和 方法 是 可 以 返回 多 个 值 ( 即 多 值 ) 的 。 








返回 一 个 值 需要 使 用 return 语句 ， 但 如 果 
在 声明 返回 值 时 指定 了 变量 名 ， 则 可 以 自动 在 
遇 到 return 语句 时 返回 该 指定 变量 的 当前 值 ， 
而 不 必 在 return 语句 中 再 指定 返回 值 (图 12 )。 


























接受 返回 值 采 用 的 是 多 重 赋值 的 方法 : 


吓人 0 二 和 
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// 函数 定义 ( 多 个 返回 值 ) 

fume tes oa 
Te = NO AOE 
于 1 
return; // 返回 10.0 和 i 

hl 














图 12 ” return 返回 r 和 i 
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Ruby 也 可 以 通过 返回 数组 的 方式 实现 和 多 值 返回 类 似 的 功能 ， 但 返回 数组 说 到 底 依然 只 是 
返回 了 一 个 值 而 已 ， 而 Go 是 真正 返回 多 个 值 ， 在 这 一 点 上 做 得 更 加 彻底 。 











Go 的 错误 处 理 也 使 用 了 多 值 机 制 。 相 比 之 下 ，C 语言 由 于 只 能 返回 单 值 ， 且 又 不 具备 异常 
机 制 ， 因 此 当 发 生 错误 时 ， 需 要 返回 一 个 特殊 值 (如 NULL 或 者 负 值 等 ) 来 将 错误 信息 传达 给 
调用 方 。 








UNIX 的 系统 调用 ( system call ) 和 库 调用 ( library call ) 大 体 上 也 采用 了 类 似 的 规则 。 然 而 ， 
在 这 样 的 规则 下 ， 正 和 常 值 也 可 能 和 错误 值 发 生 重复 ， 因 此 总 有 碰 钉 子 的 时 候 。 





例如 ，UNIX 的 mktime 也 数 ， 在 正常 时 返回 从 1970 年 1 月 1 日 00:00:00UTC 开始 到 指定 
时 间 所 经 过 的 秒 数 ， 而 出 错时 则 返回 -1。 然 而 在 最 近 的 系统 平台 中 ， 也 开始 支持 负 值 的 秒 数 了 ， 
即 -1 变 成 了 一 个 正常 值 ， 代 表 1969 年 12 月 31 日 23:59:59。 











Go 也 没有 异常 处 理 机 制 。 但 通过 多 值 ， 就 可 以 在 原本 返回 值 的 基础 上 ， 同 时 返回 错误 信息 
值 ， 这 被 称 为 “逗号 OK” 形 式 。 





例如 ， 在 Go 中 打开 文件 的 程序 如 图 13 f,ok := 0S.0pen (文件 名 ,0s.0_RDONLY,0); 





























元 if ok != nil { 
所 示 。 。0pen 失 败 时 的 处 理 . . . 
: 启 A g b 
这 样 的 程序 中 ， 错 误 值 和 正常 值 可 能 会 发 
沾 混淆 图 13 文件 的 打 








和 泛 型 一 样 ,有 异常 处 理 也 是 一 个 被 搁置 的 功能 ,理由 是 会 让 语言 变 得 过 于 复杂 。 不 过 ,有 了 ”去 
号 OK” 形 式 ， 在 一 定 程度 上 就 可 以 弥补 缺少 异常 处 理 的 不 足 。 





然而 , 没有 异常 处 理 , 也 有 不 方便 的 地 方 。 就 是 Java 的 finally, 或 者 Ruby 的 ensure 的 部 分 ， 
即 无 论 是 正常 结束 还 是 发 生 异 常 ， 都 要 保证 执行 的 后 处 理 程 序 。 

在 Go 中， 是 通过 defer 语句 来 实现 后 处 理 的 。defer 语句 所 指定 的 方法 ， 在 该 孔 数 执行 完毕 
时 一 定 会 被 调用 。 


例如 ， 为 了 保证 打开 的 文件 最 终 被 关闭 ， 可 f,ok := 0s.0pen (文件 名 ,0_RDONLY,0); 
以 像 图 14 这 样 使 用 defer 语句 来 实现 。 defer f.Close (); 
图 14 使 用 defer 关闭 文件 


























在 Ruby 中 ，open 方法 是 完全 不 需要 进行 
close 的 ， 而 Go 的 抽象 度 虽然 不 如 Ruby 那样 高 ， 但 也 提供 了 可 以 避免 文件 忘记 被 关闭 所 需要 的 
基本 框架 。 
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第 3 齐 编 程 语言 的 新 潮流 


饼 并 发 编程 
如 果 要 举 出 Go 作为 最 新 的 系统 编程 语言 最 重要 的 一 个 特征 ， 疏 人 大 多 数 人 都 会 说 一 一 并 

发 编程 。 

近年 来 ， 虽 然 像 Erlang 这 些 以 并 发 编程 为 卖点 的 编程 语言 受到 了 广泛 的 关注 ， 但 在 系统 纺 
程 领 域 还 没有 出 现 这 样 的 语言 。 要 在 系统 编程 领域 实现 并 发 编程 ,只 能 用 C、C++ 和 线程 ( thread ) 
做 艰苦 卓绝 的 斗争 。 

然而 ,线程 这 东西 ， 在 并 发 编程 上 绝对 算 不 上 是 好 用 的 工具 。 

Go 则 在 语言 中 内 置 了 对 并 发 编程 的 支持 ， 这 一 功能 参考 了 CSP ( Communicating Sequential 
Processes ， 通 信 顺 序 进 程 ) "模型 。 
有 具体 的 方法 是 使 用 go 语句。go 是 Go 特有 的 一 个 语句 ， 也 许 这 才 是 Go 这 个 命名 的 来 源 吧 。 
通过 这 个 语句 ， 可 以 创建 新 的 控制 流程 。 












































































































































QO: 


f 函数 在 独立 的 控制 流程 中 执行 ， 和 go 语句 后 面 的 程序 是 并 行 运 作 的 。 











这 里 所 说 的 独立 的 控制 流程 被 称 为 goroutine ， 而 控制 流程 还 有 其 他 一 些 表现 方式 ， 表 1 对 
它们 的 差异 进行 了 比较 。 





表 1 “控制 流程 ”的 实现 方法 一 览 


























表现 控制 流程 的 术语 内 存 空间 共享 轻 型 上 下 文 切换 
process (OS) no no 动 
process (Erlang ) no yes 自动 
thread yes no 动 
fiber/coroutine yes yes 手动 
goroutine yes yes 动 























其 中 ， 内 存 空间 共享 指 的 是 某 个 控制 流程 是 否 可 以 访问 其 他 控制 流程 的 内 存 状 态 。 


如 有 果 不 共 享 的 话 ， 就 可 以 避免 如 数据 访问 冲突 等 并 发 编程 所 特有 的 难题 。 但 男 一 方面 ,为 
了 共享 信息 ， 则 需要 对 数据 进行 复制 ， 但 这 样 存在 性 能 下 降 的 风险 。 










































































QD CSP (通信 顺序 进程 ) 是 一 种 用 来 描述 并 行 系统 交互 模式 的 形式 语言 ,最 早 由 托尼 。 霍 尔 ( C.A.R.Hoare, 1934 一 ) 
在 其 1979 年 的 一 篇 论文 中 提出 。CSP 对 并 发 编程 语言 的 设计 有 深远 影响 ， 受 其 影响 的 编程 语言 包括 Limbo 和 
Go 等 。 
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“轻型 ”是 指 一 个 程序 是 否 可 以 创建 大 量 的 控制 流程 。 例 如 , 操作 系统 提供 了 进程 ( process ) 
和 线程 ( thread )， 但 由 一 个 程序 创建 上 千 个 进程 或 线程 是 不 现实 的 。 然 而 ， 如 果 是 轻型 控制 流 
程 的 话 ， 不 要 说 上 千 个 ， 某 些 情况 下 就 是 创建 上 百 万 个 也 毫 无 问题 。 




















最 后 ,“ 上 下 文 切换 ”是 指 在 程序 中 是 否 需 要 显 式 地 对 控制 流程 进行 切换 。 例 如 fiber ( 也 叫 
coroutine ) 就 需要 进行 显 式 切换 。 


除 此 之 外 ， 可 以 在 等 待 输入 暂停 运行 时 ， 或 者 以 一 定时 间 间 隔 的 方式 自动 进行 切换 。 此 外 ， 
支持 自动 上 下 文 切 换 的 方式 (在 大 多 数 情 况 下 ) 都 支持 在 多 核 CPU 中 的 多 个 核心 上 同时 运行 。 
Go 的 goroutine 支持 内 存 空 间 共 享 ， 是 轻型 的 ， 且 支持 自动 上 下 文 切 换 ， 因 此 可 以 充分 利 


用 多 核 的 性 能 。 在 实现 上 ， 是 根据 核心 数量 ,自动 生成 操作 系统 的 线程 ， 并 为 goroutine 的 运行 
进行 适当 的 分 配 。 























此 外 ， 通 过 使 用 自动 增长 栈 的 segmented stack 技术 ， 可 以 避免 栈 空间 的 浪费 ， 即 便 生成 大 
量 的 goroutine 也 不 会 对 操作 系统 带 来 过 大 的 负 丛 。 








在 内 存 空 间 共享 的 并 发 编程 中 ， 如 果 同 时 对 同样 的 数据 进行 改写 就 会 发 生 冲 突 ， 最 坏 的 情 
况 下 会 导致 数据 损坏 ， 甚 至 程序 骨 溃 ， 因 此 必须 要 引起 充分 的 注意 。 在 Go 中 ， 为 了 降低 发 生 
问题 的 几率 ， 采 取 了 下 面 两 种 策略 。 


























第 一 种 策略 是 ， 作 为 goroutine 启动 的 函数 ， 不 推荐 使 用 带 指 针 的 传 址 参数 ， 而 是 推荐 使 用 
传 值 参 数 。 这 样 一 来 ， 可 以 避免 因 共 享 数据 而 产生 的 访问 冲突 。 






































第 二 种 策略 是 ， 利 用 通道 ( channel ) 作为 goroutine 之 间 的 通信 和 手段。 通过 使 用 通道 ， 就 基 
本 上 不 必 考 虑 互 斥 锁 等 问题 ， 且 以 通道 为 通信 方式 的 并 发 编程 ， 其 有 效 性 已 经 通过 Erlang 等 语 
言 得 到 了 证 实 。 




















通道 是 一 种 类 似 队列 的 机 制 ， 只 pe 
能 从 一 侧 写 入， 从 另 一 侧 读 出 。 写 cr make (enan ne 

i ee <- 42 // 向 通道 添加 什 
和 人 和 读 出 操作 使 用 <- 操作 符 来 完成 > I 交 册 从 公仆 科 
\ 图 15》 图 15 ”< 操作 符 的 使 用 示例 












































16 是 一 个 用 goroutine 和 通道 编写 的 简单 的 示例 程序 。 这 个 程序 中 ， 通 过 通道 将 多 个 
goroutine 连接 起 来 ， 这 些 goroutine 分 别 将 值 加 1， 并 传递 给 下 一 个 goroutine。 








向 最 开始 的 通道 写 入 0， 则 返回 由 goroutine 链 所 生成 的 goroutine 个 数 。 这 个 程序 中 我 们 生 
成 了 10 万 个 goroutine。 
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在 我 的 配备 Core2 Duo T7500 2.20GHz CPU 的 电脑 上 运行 这 个 程序 ， 只 需要 不 到 1 秒 的 时 
间 就 完成 了 。 生 成 10 万 个 控制 流 只 用 了 这 么 短 的 时 间 ， 还 是 相当 不 错 的 。 














package main 
nmporte tm 


const ngoroutine = 100000 
Punentelen te nh een ot ghe 
func main(){ 


leftmost := make (chan int) ; 
var left, right chan int = nil, leftmost; 
RO 0 ngonroumer ii 汪汪 


left, right = right, make (chan an) 
gont( le bh 


} 

GI < 0 /angu 

Xentmost m/wante hor ecomeon 
mma pr nin x // 100000 


} 
图 16 ”Go 编写 的 并 行 计算 示例 程序 


依 小 结 


Go 是 一 种 比较 简洁 的 语言 ， 但 我 们 在 这 里 依然 无 法 网 罗 其 全 部 方面 。 因 此 ， 我 在 这 里 对 
Go 的 介绍 ， 是 从 某 种 语言 的 设计 者 在 看 待 另 一 种 编程 语言 的 时 候 ， 会 被 哪些 点 所 吸引 这 个 角度 
出 发 的 。 
































我 认为 Go 是 一 种 考虑 十 分 周全 的 语言 。 我 做 了 很 多 年 的 C 程序 员 ( 还 有 一 段 做 C++ 程序 
员 的 历史 ) 作为 一 种 系统 编程 语言 ， 让 我 稍 许 产 生 “ 也 许可 以 换 它 用 用 看 ”这 样 念头 的 ， 从 上 
学 时 用 上 C 语言 以 来 到 现在 ， 这 还 是 头 一 次 。 














当然 ，Go 也 不 是 一 种 十 全 十 美的 语言 ， 它 也 有 诸多 不 足 。 如 数组 .字典 等 特殊 对 竺 的 部 分 ， 
以 及 作为 一 种 静态 语言 ， 总 归还 是 需要 对 泛 型 做 出 一 定 的 支持 等 。 





此 外 ， 异 常人 处理 也 是 很 有 必要 的 。 即 便 有 可 能 会 让 语言 变 得 复杂 ， 我 认为 最 好 还 是 应 该 加 
上 对 方法 重 载 和 操作 符 重 载 的 支持 。 而 对 于 是 否 可 以 省 略 分 号 这 样 的 规则 ， 对 我 来 说 并 没有 什 
么 直观 的 感受 。 





在 实现 方面 ，Go 的 目标 是 做 到 压倒 性 的 高 速 编译 ， 以 及 将 运行 所 需 时 间 控 制 在 比 同 等 C 语 
言 程序 多 10% 到 20% 的 范围 内 。 但 就 目前 来 看 ， 先 不 要 说 编译 时 间 ， 狐 似 连 运行 时 间 也 尚未 达 
到 当初 的 目标 。 
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2 人 Go 





不 过 ， 回 过 头 来 想 想 ，Go 还 只 是 一 种 非常 年 轻 的 语言 。 从 2007 年 项 目 启动 算 起 ， 也 只 是 
仅仅 过 了 几 年 的 时 间 而 已 。 











一 种 编程 语言 从 出 现 到 被 广泛 关注 和 使 用 ， 大 多 都 需要 10 年 以 上 的 时 间 ， 而 Go 只 用 了 短 
短 几 年 的 时 间 就 走 到 这 一 步 ， 着 实 令 人 惊叹 。 








Go 是 下 一 代 编 程 语言 中 我 最 看 好 的 一 个 ， 今 后 也 会 继续 关注 它 的 发 展 。 





说 句 题 外 话 ， 其 实在 Go 出 现 很 久之 前 ， 就 已 经 存在 一 种 叫做 “Go!” 的 语言 了 。 由 于 
Google 奉行 “不 作恶 ”(Don'tbe evil ) 的 信条 ， 因 此 网 上 有 很 多 人 认为 Go 应 该 改名 。 








话说 ， 语 言 名 称 撞车 也 不 是 什么 新 鲜 事 ( 用 Ruby 这 个 名 字 的 编程 语言 也 有 好 几 个 )， 不 
过 网 上 有 人 推荐 将 Go 语言 改 成 Golang 或 者 Issue-9。 前 者 是 来 自 Go 官方 网 站 的 域名 (golang. 
org )， 后 者 则 是 来 自 “ 已 经 有 一 个 叫 Gol 的 语言 了 ， 请 改名 ”这 个 问题 报告 的 编号 "。 




















就 我 个 人 来 说 ， 我 会 给 “不 改名 ， 撞 车 就 撞车 ”这 个 选项 投 上 一 票 。 如 果 非 要 改 的 话 ， 我 
比较 喜欢 Golang 吧 。 无 论 如 何 ， 我 对 Google 今后 会 做 出 怎样 的 抉择 十 分 关注 。 











GD Issue-9 来源 于 Google Code 中 Go 语言 Issue tracker 中 的 第 9 号 问题 。 该 问题 提交 于 2009 年 11 月 10 日 ( 即 Go 
刚刚 发 布 几 天 之 后 )， 标 题 为 “Ihave already used the name for *MY* programming language”( 我 已 经 为 * 我 自己 
的 * 编程 语言 用 了 这 个 名 字 )， 发 帖 人 称 他 自己 一 个 已 经 开发 了 10 年 的 语言 也 叫 这 个 名 字 ( 有 人 指出 其 实 发 帖 
人 开发 的 语言 叫 “Go!”， 多 一 个 感叹 号 )， 并 且 发 表 了 论文 还 出 版 了 书 。2010 年 10 月 ，Google 正式 作出 回应 ， 
称 叫 Go 的 计算 机 相关 产物 有 很 多 ， 过 去 11 个 月 中 这 两 种 语言 命名 的 类 似 性 也 没有 引起 很 大 的 歧义 ， 因 此 决定 
关闭 该 问题 。( Issue-9 原 帖 链接 : http://code.google.com/p/go/issues/detail?id=9 ) 
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3.3 Dart 


RN 














2011 年 10 月 在 丹麦 奥 胡 斯 市 召开 的 GOTO 大 会 2011 上 ，Google 公司 发 布 了 一 种 新 的 编程 


语言 Dart。 











GOTO 大 会 每 年 都 在 奥 胡 斯 市 召开 ， 这 个 活动 曾经 叫做 JAOO ( Java and Object Oriented， 
Java 与 面向 对 象 )， 在 欧洲 算是 首届 一 指 的 技术 大 会 。. 《代码 重 构 》 的 作者 马丁 福 勒 (Martin 
Fowler )、 维 基 创 始 人 沃 德 . 坎 宁 安 (Ward Cunningham ) ”、“ 编 程 达 人 ”大 卫 … 托马斯 (Dave 
Thomas )、C++ 创始 人 比 雅 尼 . 斯 特 劳 斯 特 鲁 普 ( Bjarne Stronstrup ) “等 著名 的 技术 先驱 都 曾经 
作为 演讲 者 在 该 大 会 上 发 表 过 演讲 。 












































我 自己 也 有 两 次 登台 演讲 的 经 历 , 其 中 一 次 是 在 2001 年。 那个 时 候 Ruby on Rails 还 没有 诞生 ， 
可 以 说 主办 方 的 眼光 十 分 敏锐 。 所 有 的 演讲 者 都 称赞 大 会 的 讲师 阵容 豪华 、 料 理 好 吃 ， 堪 称 “ 最 
棒 的 大 会 ”。 


其 实 ，David Heinemeier Hansson“ 也 曾 作为 学 生 工 作 人 员 参 加 了 2001 年 那 次 大 会 。 传 说 ， 
他 是 借 在 会 后 的 饭局 上 跟 我 聊天 的 机 会 ， 对 Ruby 产生 了 兴趣 ， 从 而 从 PHP 转 到 了 Ruby， 之 后 
在 美国 37signals 公司 开发 出 了 Ruby on Rails。 














关于 JAOO 的 题 外 话 好 像 有 点 太 多 了 。 虽 说 对 我 个 人 来 说 这 个 大 会 给 我 留 下 了 很 深 的 印象 ， 
不 过 这 个 话题 还 是 到 此 为 止 吧 。 下 面 我 们 回 到 主题 ， 来 讲 讲 Dart。 








食 为 什么 要 推出 Dart ? 
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像 “Dart 语言 信 门 ”这 样 的 题材 ， 不 如 还 是 留 给 别 的 杂志 、 图 书 和 网 站 来 做 吧 ， 在 本 书 中 ， 
我 们 的 介绍 重点 关注 的 是 隐藏 在 Dart 背后 的 “为 什么 ”。 当 然 ，Google 公司 并 没有 官方 公布 过 














Qa 沃 德 。 坎 宁 安 ( Ward Cunningham，1949 ) 是 一 位 美国 计算 机 程序 员 ， 维 基 ( Wiki ) 概念 的 发 明 者 。 

@ 比 雅 尼 。 斯 特 劳 斯 特 鲁 普 〈 Bjarne Stroustrup ，1950 ) 是 一 位 计算 机 科学 家 ，C++ 的 创始 人 ， 现 任 德 克 萨 斯 
州 A&M 大 学 工程 学 院 计算 机 科学 首 础 教授 。 

@) David Heinemeier Hansson ( 1979 一 ”) 是 一 位 丹麦 计算 机 程序 员 ，Ruby on Rails 的 创始 人 ,在 Ruby 社区 中 常 
名 为 DHH。 
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3.3 Dart 








推出 Dart 的 意图 ， 我 也 只 是 从 声明 以 及 语言 设计 规格 中 推测 的 。 不 过 ， 即 便 是 以 这 些 有 限 的 信 
息 为 出 发 点 ， 却 也 得 到 了 很 多 意外 的 收获 。 








那么 ，Google 公司 到 底 为 什么 要 开发 和 发 布 一 种 新 的 编程 语言 呢 ? 像 Ruby 这 样 由 一 个 人 
开始 开发 的 语言 ， 仅 仅 拥有 对 技术 的 兴趣 ， 以 “ 想 做 做 看 而 已 ”这 样 的 理由 就 足够 成 立 了 。 但 
是 Google 公司 作为 一 家 世界 上 具有 代表 性 的 企业 , 用 自己 公司 的 名 义 来 发 布 一 种 新 的 编程 语言 ， 
我 觉得 其 中 一 定 男 有 深意。 

















况且 ， 很 多 人 都 知道 ， 在 Google 公司 中 有 这 样 一 条 规定 ， 公 司 内 部 的 软件 开发 项 目 ， 只 能 
使 用 C/C++、Java、Python 和 JavaScript 这 几 种 语言 。 之 所 以 有 这 条 规定 ， 是 因为 所 使 用 的 语言 
种 类 越 多 ， 就 需要 雇佣 越 多 精通 这 些 语言 的 技术 人 员 ， 而 限制 开发 语言 的 种 类 ， 主 要 是 从 降低 
管理 成 本 上 来 考虑 的 。 软 件 开 发 是 Google 公司 的 生命 线 ， 先 不 站 在 技术 人 员 兴 趣 的 角度 上 来 考 
虑 ， 就 从 维系 这 一 生命 线 需要 管理 大 量 的 代码 这 个 角度 来 看 ， 坛 庸 置疑 这 是 在 公司 经 营 层 面 上 
一 个 非常 合理 的 判断 。 因 此 ， 虽 然 编 程 语 言 的 开发 在 技术 上 非常 吸引 人 ， 但 Google 也 决 不 会 草 
率 地 在 自己 公司 里 开发 一 种 编程 语言 并 发 布 出 来 。Google 不 惜 违 背 自 己 的 规定 而 开发 一 种 自己 
的 编程 语言 ， 这 背后 到 底 有 怎样 的 原因 呢 ? 






























































2009 年 Go 发 布 的 时 候 ， 官 方 对 于 动机 的 解释 是 为 了 克服 C/C++ 的 缺点 。 也 就 是 说 ， 
Google 公司 要 开发 的 软件 数量 实在 是 太 庞大 了 , 像 C 语言 这 样 设计 古老 的 语言 (诞生 于 1972 年 ) 
便 遇 到 了 瓶 贷 , 而 C++ 的 设计 由 于 考虑 了 和 C 语言 之 间 的 兼容 性 ,因此 也 显得 有 些 力不从心 了 。 

















因此 ，Google 公司 的 开发 人 员 希 望 能 够 提供 一 种 : 
口 更 现代 
口 更 安全 
口 十 分 高 速 








的 替代 语言 。 的 确 ，Go 在 语言 设计 上 保持 了 和 C 语言 同等 程度 的 高 速 性 ， 同 时 还 加 入 了 简洁 的 
面向 对 象 功 能 、 垃 圾 回收 机 制 以 及 类 型 安全 等 特性 。 

















进一步 推测 的 话 ， 像 Google 这 样 需 要 编写 大 量 代码 的 公司 ， 即 便 没有 什么 外 部 用 户 ， 光 公 
司 内 部 应 该 也 可 以 保证 足够 多 的 使 用 者 。 虽 然 Go 也 曾 在 一 段 时间 内 并 没有 引起 太 大 关注 ,但 
对 Google 公司 来 说 应 该 也 算 不 上 是 什么 问题 吧 。 





应 该 说 ，Dart 背后 应 该 也 隐藏 着 类 似 的 动机 ， 当 然 在 这 里 需要 被 替换 的 语言 成 了 
JavaScript。JavaScript 是 美国 原 Netscape Communications 公司 作为 其 浏览 器 产品 的 内 部 语言 
开发 的 ， 开 发 周期 非常 短 。 
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JavaScript 的 设计 者 布 兰 登 . 艾 克 ( Brendan Eich ) " 曾 在 一 次 采访 中 说 ，JavaScript“ 几 天 就 
设计 出 来 了 ”。 从 这 样 的 出 身 来 看 ， 出 乎 意料 ， 它 还 真 算是 一 种 做 得 不 错 的 语言 。 但 由 于 开发 周 
期 短 ， 确 实 也 存在 着 诸多 不 足 。 例 如 ， 开 发 周期 短 导 致 了 语言 规格 和 实现 过 于 追求 简单 化 ， 而 
程序 员 实 际 开发 出 的 JavaScript 代码 则 容易 变 得 十 分 繁杂 。 























在 Dart 发 布 前 夕 ， 曾 经 从 Google 公司 内 部 泄露 出 了 一 份 备忘录 ， 内 容 如 下 








口 JavaScript 包含 一 些 语言 本 质 上 的 缺陷 ， 这 些 缺 陷 无 法 通过 对 语言 的 改进 来 解决 。 因 此 ， 
我 们 将 对 JavaScript 的 未 来 执行 两 个 方面 的 战略 。 

口 Harmony ( 低 风 险 、 低 回报 ) 与 ECMAScript 标准 规范 小 组 TC39 合作 ， 继 续 努 力 对 
JavaScript 进行 改进 。 

口 Dash2 (高 风险 高 回报 ): 在 保持 JavaScript 动态 性 质 的 同时 ， 开 发 一 种 更 容易 提升 性 能 
的 、 更 容易 开发 适合 大 规模 项 目 所 需 工 具 的 新 语言 一 一 Dash。 











关于 执行 这 两 方面 战略 的 理由 ， 这 份 备忘录 给 出 了 如 下 解释 。 首 先 ， 如 果 拘 泥 于 
JavaScript， 那 么 Web 的 发 展 就 会 发 生 停滞 ， 从 而 就 可 能 在 与 苹果 公司 的 iOS 等 对 手 的 竞争 中 失 
利 。 但 反 过 来 说 ， 如 果 放 弃 JavaScript 而 只 专注 于 Dart，, 一 旦 Dart 失败 ， 则 JavaScript 的 发 展 就 
会 停滞 ,最 坏 的 情况 下 甚至 会 危及 Google 公司 在 技术 界 的 地 位 。 因 此 ,Google 才 做 出 了 这 种 “两 
手 抓 、 两 手 都 要 人 硬 ” 的 决定 。 

















对 于 这 份 备忘录 ，JavaScript 阵营 ， 尤 其 是 该 语言 的 创始 人 布 兰 登 ， 艾 克 回 应 说 ， 性 能 和 工 
有 具 支持 都 不 是 什么 大 问题 ， 即 便 是 现在 的 JavaScript 有 一 些 缺 陷 ， 也 是 可 以 进行 改善 的 。 而 且 
JavaScript 的 下 一 个 版 本 Harmony 中 ， 已 经 对 这 些 问 题 进 行 了 一 定 程 度 的 应 对 。 














此 外 ，JavaScript 目前 受到 的 主要 批判 ， 如 : 





口 无 法 应 对 复杂 的 互联 网 应 用 程序 
口 无 法 进行 高 速 化 

口 不 文 持 多 核 /GPU 

口 无 法 修正 





但 这 里 面 存在 着 一 些 误解 ， 因 此 他 们 主张 ， 今 后 还 是 应 该 专注 于 JavaScript。 而 且 ， 开 发 一 
种 新 的 语言 ， 可 能 会 造成 社区 的 分 裂 。 








Q@ 布 兰 登 。 艾 克 ( Brendan Eich，1961 一 ”) 是 一 位 计算 机 程序 员 ，JavaScript 语言 的 创始 人 ， 现 任 Mozilla 公司 首 
席 技术 官 (CTO )。 

@ Google 公司 对 于 这 份 备忘录 的 真 伪 没 有 做 出 官方 表态 。( 原 书 注 

@ 在 这 份 备忘录 中 ，Dart 被 称 为 Dash， 应 该 是 项 目 途 中 更 改 了 名 称 。( 原 书 注 ) 
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3.3 Dart 


技术 的 正确 与 否 ， 只 能 留 给 将 来 的 历史 去 证 明 ， 我 们 在 这 里 不 去 判断 双方 就 优 床 劣 ， 但 至 
少 我 认为 ， 他 们 双方 的 主张 都 具备 各 自 的 合理 性 。 


























下 面 ， 我 们 就 来 具体 看 一 看 Dart 这 个 语言 吧 。 


全 Dart 的 设计 目标 





在 Dart 的 主页 dartlang.org" 中 ， 关 于 Dart 的 设计 目标 是 这 样 说 明 的 


口 创造 一 种 结构 化 而 又 十 分 灵活 的 Web 开发 语言 。 
口 要 让 Dart 对 程序 员 更 加 自然 和 友好 ， 作 为 结果 ， 将 Dart 设计 成 一 种 容易 学 习 的 语言 。 
口 构成 Dart 的 全 部 语言 机 制 都 不 应 该 对 高 速 运行 和 快速 启动 产生 妨碍 。 

口 要 将 Dart 设计 成 一 种 能 够 适应 一 切 Web 相关 设备 的 语言 ， 包 括 手机 、 平 板 电脑 、 笔 记 
本 电脑 、 服 务 器 等 。 

口 要 在 主流 的 现代 浏览 器 上 提供 可 以 高 速 运行 Dart 的 工具 。 

















需要 实现 上 述 目 标的 Web 开发 者 ， 所 直到 的 问题 有 下 面 这 些 : 


口 小 型 脚本 通常 在 没有 实现 结构 化 的 情况 下 就 成 为 了 一 个 大 型 的 Web 应 用 程序 ， 这 样 的 应 
用 程序 很 难 进行 调试 和 维护 。 而 且 ， 这 种 一 整 块 的 应 用 程序 ， 无 法 由 多 个 团队 分 担 开发 
工作 。Web 应 用 一 旦 变 得 巨大 ， 就 无 法 保证 其 开发 效率 。 

口 能 够 快速 编写 代码 的 轻 量 化 特性 ， 是 脚本 语言 受 欢 迎 的 原因 。 这 样 的 语言 中 ， 一 般 来 说 ， 
对 应 用 程序 模块 间 访 问 的 约定 ( 契约 )， 并 不 是 由 语言 本 身 来 完成 的 ， 而 是 通过 注释 来 表 
现 的 。 结 果 ， 除 了 作者 以 外 ， 要 读 懂 代码 并 进行 维护 就 变 得 非常 困难 。 

口 现存 的 语言 中 ， 都 要 求 开 发 者 必须 从 静态 类 型 和 动态 类 型 两 者 中 选择 一 种 。 传 统 的 静态 

类 型 语言 都 需要 庞大 的 开发 工具 ， 编 码 风 格 上 的 制约 也 比较 多 ， 让 人 感觉 缺少 灵活 性 。 

口 开 发 者 无 法 在 服务 器 和 客户 端 上 构建 一 个 具备 统一 感 的 系统 。nodejs 和 Google Web 

Toolkit (GWT ) 是 为 数 不 多 的 例外 。 

口 多 种 语言 和 格式 的 混合 ， 会 导致 繁杂 的 “上 下 文 切 换 ” 问 题 ， 增 加 了 开发 的 复杂 性 。 




























































































原来 如 此 。 作 为 动态 语言 的 信奉 者 ， 我 无 法 完全 同意 这 些 观点 ， 不 过 我 想 就 算 我 不 说 ， 大 
家 也 应 该 能 理解 的 吧 。 那 么 ， 既 然 意识 到 这 些 问 题 的 存在 ， 为 了 实现 所 设 定 的 目标 ，Google 公 
司 又 将 Dart 设计 成 了 怎样 一 种 语言 呢 ? 





J 将 “语言 名 称 +lang” 作 为 官方 网 站 域名 ， 最 早 应 该 是 我 为 Ruby 创建 的 “ruby-lang.org"。 虽 然 没 有 证 据 证 明 
Google 是 受 了 我 的 影响 ， 但 想象 一 下 我 的 想法 居然 能 够 影响 到 Google， 就 感觉 到 一 种 莫名 的 开心 。( 原 书 注 ) 
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饼 代 码 示例 





首先 ， 我 们 来 看 一 段 dartlang.org 上 面 的 


interface Shape { 


示例 程序 (图 1 )。 这 个 ， 嗯 ， 怎 么 说 呢 ， 感 num perimeter ( ) ; 
坏 也 } 
党 和 Java 很 像 啊 。 


class Rectangle implements Shape { 


不 过 ， 仔 细 看 看 就 会 发 现 还 是 有 很 多 不 final num height, width; 
Rectangle (num this.height, num this. 


同 的 。 例 如 数值 类 型 叫做 num， 还 有 构造 方 。 width 
法 的 编写 十 分 简洁 ， 方 法 定义 有 其 他 形式 等 。 。 mum perimeter ( ) -> 2xheight + 2xwidthi 





J 
此 外 ，super 的 用 法 和 Java 也 有 些 区 别 , 不 
De 、 Js 六 class Square extends Rectangle { 
指定 方法 名 这 样 的 形式 又 有 点 像 Ruby。 Square (num Size) : super (size, size); 
J 


我 们 再 来 看 男 外 一 段 示 例 程序 ( 图 2 )。 
这 次 好 像 风 格 变 得 有 点 不 一 样 了 。 














图 1 Dart 示例 程序 ( 1 ) 











怎么 样 ? 是 不 是 感觉 和 Java 有 点 相似 ， 有 
但 又 比 Java 要 简洁 ?说 起 和 Java 语法 相似 的 var name = "Wor1d'; 
a xs DD) Tn Heo US 
脚本 语言 ， 让 我 想起 了 Groovy9。Dart 作为 jp “Mel lo, ane 
JavaScript 的 后 继 者 ， 试 图 对 简洁 的 编程 提供 
支持 ， 大 家 是 否 从 中 感觉 到 了 呢 ? 用 “$” 将 
表达 式 能 入 到 字符 串 中 ， 这 一 点 倒是 很 有 脚 
Ne ]| 由 
本 语言 的 风格 。Ruby 也 差不多 ， 只 不 过 用 的 。 “ss er el1o ，， 
是 “#” 而 不 是 “$”。 哦 对 了 ,Groovy 也 是 用 “$” 
2 A/ 1 greet (name) { 
在 字符 串 中 般 入 表达 式 的 。 print ('$prefix $name'" ) ; 
] 
Dart 中 无 需 显 式 指定 类 型 ， 程 序 以 main } 
方法 作为 起 点 。Dart 最 大 的 特征 就 在 于 其 类 main ( ) { 
型 声明 是 可 以 省 略 的 。 关 于 这 种 “ 非 强制 性 9 val reopen ee 
- 、 Ee greeter.greet ("Class!"); 
静态 类 型 ”的 机 制 ,我 们 稍 后 会 详细 进行 探讨 。 } 























区 








2 ”Dart 示例 程序 ( 2 ) 























区 











下 面 我 们 来 创建 一 个 类 (图 3)。 这 次 又 。 图 3 Dart 示例 程序 (3) 


很 像 Groovy 的 风格 呢 。 这 个 程序 很 简单 ， 就 是 创建 一 个 类 ， 并 调用 它 的 方法 ， 好像 没有 什么 讲 
解 的 必要 呢 。 











QD Groovy 是 一 种 Java 平台 上 的 面向 对 象 编程 语言 ， 发 布 于 2003 年 。 它 是 一 种 动态 语言 ， 可 以 作为 Java 平 台 上 的 
脚本 语言 来 使 用 。 
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S00 Dart 


Dart 中 可 以 创建 多 个 构造 方法 。 那 么 ， 我 们 来 定义 015ss ereeter | 
一 个 指定 问候 词 的 构造 方法 吧 ( 图 4 )。 深 受 Ruby 毒害 var prefix = 'Hello,’; 
的 人 肯定 会 说 ， 这 种 功能 用 类 方法 来 实现 不 就 好 了 嘛 。 Greeter (); 
Greeter .withPrefix (this . 


Dart 的 实例 变量 默认 是 公有 (public ) 的 ， 可 以 从 外 二 
ER greet (name 
部 进行 访问 。 因 此 : print ("$prefix $name' ) ; 
greet.prefix = "Goodbye" 上 


就 可 以 改写 实例 变量 了 。 如 果 不 希望 公开 实例 变量 《main (){， a 

和 Es . Var ReeLce = Mew reeter 
的 话 ， 就 需要 将 实例 变量 声明 为 私有 (private )。 此 外 ， 0 
为 了 对 属性 访问 进行 抽象 化 ， 还 可 以 定义 setter 和 getter 。 ,greeter greet ("Class1") ; 
方法 。 如 果 将 图 3 的 程序 修改 一 下 ， 将 prefx 私有 化 并 


图 4 D 示例 程 4 
用 setter 和 getter 进行 封装 ， 就 变 成 了 图 5 的 样子 。 0% 
































class Greeter { 


Stlmanmp efi eione, // Hidden instance variable. 

String get prefix() => _prefix; // Getter for prefix. 

void set prefix (String value) { // Setter for prefix. 
teval ue no vialuen 


if (value.length > 20) throw "Prefix too long!'; 
_prefix = value; 


Jy 


greet (name ) { 
print("$prefix $name') 

二 

} 


main() { 
var greeter = new Greeter(); 
greeter.prefix = 'Howdy,'; /Setomprerix, 
greeter.greet ('setter!') 


} 
到 5 Dart 示例 程序 ( 5 ) 

首先 ， 名 字 以 “ ”开头 的 变量 是 私有 的 。 私 有 的 实例 变量 无 法 从 外 部 进行 访问 。setter 和 
getter 是 在 方法 名 前 面 分 别 加 上 set 和 get。 在 Dart 中 ，settergetter 和 一 般 的 方法 是 有 明确 区 分 的 ， 
此 无 法 定义 和 setter/getter 重 名 的 方法 ， 此 外 ， 也 无 法 在 子 类 中 重 写 这 一 类 方法 。 






































最 后 我 们 来 简单 说 明 一 下 泛 型 。 拥 有 静态 类 型 的 语言 ， 必 然 需 要 带 参数 的 类 型 。 因 此 ， 
Dart 也 理所当然 地 具有 泛 型 。 





在 静态 类 型 语言 中 ， 通 过 是 否 拥 有 带 参 数 的 类 型 ， 就 能 看 出 在 语言 设计 的 时 候 对 于 类 型 进 
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行 了 何 种 程度 的 考量 。 这 让 人 想起 ， 早 期 的 Java 和 C++ 都 没有 泛 型 和 模板 类 呢 。 话 说 回来 ， 考 
虑 到 那些 语言 出 现 的 时 间 ， 一 定 程 度 上 说 ， 这 也 许 是 没 办 法 的 事 吧 。 

















在 这 里 我 想 为 Java 平反 一 下 。 


class Greeter { 





Java 其 实在 早期 就 探讨 过 引入 带 参 var name; 

Sa a Sh Greeter (this. 

数 类 型 ， 但 考虑 到 当时 带 参 数 类 型 i . > 

还 处 于 研究 水 平 ， 恶 怕 很 难 在 设计 print('Hello ${name}.'); 


规格 上 达成 一 致 。 因 此 ， 在 早期 的 ) 


规格 中 就 放弃 了 这 个 功能 。 
main() { 


、 、 i List<Greeter> greeters = [new Greeter ("you") 
那么 ， 作 为 现代 的 静态 类 型 语 new Greeter("me") ] ; 


言 ，Dart 也 采用 了 泛 型 。 我 们 在 前 for (var g in greeters) g.greet(); 
?3 oO ] 
面 的 示例 中 ， 尝 试用 了 一 下 泛 型 ， 
虽然 有 些 牵 强 。 在 图 6 中 ， 我 们 使 各 6 Dart 的 示例 程序 (6) 
用 List<Greeter> 来 存放 多 个 Greeter 类 。 当 然 ， 由 于 在 Dart 中 类 型 声明 是 非 强制 的 ， 因 此 在 这 
里 用 var 程序 也 一 样 可 以 正常 运行 。 












































Dart 的 特征 





刚才 我 们 对 Dart 进行 了 快速 的 了 解 。Dart (目前 ) 并 不 是 一 种 规格 规模 很 大 的 语言 ， 但 以 
这 点 篇 幅 也 不 可 能 涵盖 其 全 部 特性 ， 不 过 至 少 大 家 能 对 它 的 基本 风格 有 所 了 解 了 吧 。 








因此 ，Dart 的 特征 ， 尤 其 是 和 JavaScript 进行 比较 的 话 ， 我 认为 比较 重要 的 应 该 是 : 








口 基于 类 的 对 象 系统 

口 非 强制 性 静态 类 型 
当然 ， 除 此 之 外 还 有 其 他 一 些 细微 的 差异 ， 但 如 果 说 Dart 和 JavaScript 之 间 决 定性 的 差异 的 话 ， 
我 想 非 上 述 两 点 黄 属 了 。 


仿 基 于 类 的 对 象 系统 








在 JavaScript 中 ， 对 象 的 实现 基本 上 是 用 散 列表 〈hash table ) 的 方式 。JavaScript 中 ， 除 了 
数值 和 字符 串 ， 几 乎 所 有 的 数据 都 是 对 象 〈 散 列表 ) 或 者 函数 〈 函数 对 象 )， 也 就 是 说 ， 基 本 上 
是 用 这 两 种 数据 结构 来 “以 不 变 应 万 变 ”。 
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3.3 Dart 


散 列表 的 数据 取出 访问 数量 级 为 O0D) ", 无 论 表 的 大 小 如 何 , 都 能 以 一 定 的 速度 来 取出 数据 ， 
一 种 很 优秀 的 数据 结构 。 但 遗憾 的 是 ， 与 直接 访问 数组 和 结构 体 相 比 ， 无 论 是 数据 的 取出 还 
更 新 ， 所 需 的 时 间 都 要 长 得 多 。 


在 以 Google Chrome 内 置 的 v8 为 代表 的 现代 JavaScript 引擎 中 ， 作 为 优化 的 一 部 分 ， 在 满 
足 一 定 条 件 的 情况 下 ， 会 将 对 象 以 结构 体 的 方式 来 实现 。 然 而 ，Dart 天 生 就 具备 基于 类 的 对 象 
系统 ， 因 此 不 需要 进行 这 种 不 自然 的 优化 行为 。 作 为 结果 ， 以 简单 的 引擎 来 实现 高 性 能 ， 这 一 
点 是 非常 值得 期 待 的。 


话说 ，JavaScript 在 下 一 个 版 本 Harmony 中 也 采用 了 基于 类 的 对 象 系统 。 虽 说 这 样 一 来 ， 
JavaScript 方面 会 面临 着 和 原 有 版 本 的 兼容 性 问题 , 但 可 以 想象 , 今后 Dart 的 优势 将 逐渐 被 削弱 。 





是 
是 























尺 非 强制 性 静态 类 型 








Dart 最 大 的 特征 莫 过 于 非 强 制 性 静态 类 型 了 。 由 于 类 型 的 描述 和 程序 本 身 的 逻辑 没有 直接 
关系 ， 因 此 有 很 多 人 觉得 类 型 是 十 分 繁琐 的 ,但 类 型 也 并 非 一 无 是 处 。 首 先 ， 虽然 类 型 信息 与 
程序 逻辑 没有 直接 关系 , 但 属于 重要 的 附属 信息 。 通 过 类 型 的 矛盾 ,经 常 可 以 检查 出 程序 的 错误 。 
虽说 程序 中 的 类 型 信息 没有 了 矛盾， 这 并 不 代表 程序 就 没有 错误 ， 但 至 少 有 相当 多 的 错误 ， 是 可 
以 通过 类 型 信息 由 机 融 检 查 出 来 的 。 

此 外 ， 通 过 在 程序 中 附加 类 型 信息 ， 使 得 在 编译 时 可 以 用 来 进行 优化 的 信息 增加 ， 就 更 有 
可 能 生成 出 高 品质 和 高 性 能 的 代码 。 进 一 步 说 ，IDE 等 工具 的 自动 完成 等 辅助 功能 ， 也 可 以 帮 
助 更 好 地 利用 类 型 信息 。 
静态 类 型 有 如 此 多 的 好 处 ,但 男 一 方面 ,小 规模 的 程序 中 如 果 强 制 对 类 型 信息 进行 描述 的 话 ， 
类 型 信息 所 占 的 比例 就 会 相当 大 ， 从 而 使 得 程序 逻辑 的 本 质 被 埋没 ， 也 会 消磨 开发 的 欲望 。 

为 了 解决 这 个 矛盾 ， 某 些 语言 采用 了 类 型 推导 (type inference ) 机 制 ， 而 Dart 则 是 采用 了 
“ 非 强制 性 〈 可 省 略 ) 静态 类 型 ”( optional typing ) 的 方法 。 在 Dart 中 ， 没 有 指定 类 型 的 变量 和 
表达 式 会 被 当做 Dynamic 型 ， 其 类 型 检查 在 运行 时 完成 。 
















































































采用 非 强制 性 系统 的 语言 并 非 只 有 Dart， 这 些 语言 最 大 的 问题 在 于 ， 如 果 类 型 信息 是 非 强 
制 性 (可 省 略 ) 的 ,在 运行 过 程 中 类 型 信息 就 会 逐渐 减少 , 导致 可 进行 类 型 检查 的 范围 不 断 缩 小 。 
结果 ， 在 编译 时 可 以 发 现 错误 这 一 静态 类 型 所 具备 的 优势 就 没 了 一 半 。 此 外 ， 随 着 类 型 信息 的 
减少 ， 能 够 用 于 优化 的 信息 也 同时 减少 ， 从 这 一 点 上 来 说 也 有 点 得 不 偿 失 。 




















Qa 在 算法 中 ，OCV) (大 O 记 法 ) 表示 在 最 坏 的 情况 下 ,一 种 算法 的 性 能 与 其 对 象 数 据 量 之 间 的 关系 。0O(1) 表示 算 
法 性 能 与 数据 量 无 关 , 即 数据 量 的 大 小 不 影响 该 算法 的 性 能 .更 多 关于 大 O 记 法 的 解释 请 参见 4.1 节 中 的 相关 内 容 。 
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胆 的 突破 。 也 就 是 说 ，Dart 是 类 似 JavaScript 这 样 ， 在 语言 
， 而 静态 类 型 信息 仅仅 是 作为 辅助 地 位 而 存在 的 。 在 Dart 





> 


基于 这 些 问题 ，Dart 进行 了 大 
i 备 类 型 信息 的 动态 语言 
的 语言 规格 中 ， 明 确 记载 了 Dart 具备 完全 不 进行 类 型 检查 的 工作 模式 。 也 就 是 说 ， 在 没有 显 式 























本 质 层面 不 
打开 类 型 检查 需 的 情况 下 ， 例 如 : 


num n = "abc"; 


这 样 的 程序 是 完全 可 以 正常 运行 的 。 
大 概 很 多 人 会 问 ， 这 样 到 底 有 什么 好 处 呢 ? 说 实话 ， 我 也 有 同样 的 疑问 。 
能 


我 就 大 胆 推测 一 下 ， 如 果 使 用 了 带 类 型 信息 的 库 ，IDE 等 的 自动 完成 功能 已 经 十 分 有 效 ， 
其 一 。 男 外 ， 随 着 自己 所 开发 的 程序 规模 逐渐 











而 且 程 序 中 也 会 进行 一 定 程度 的 类 型 检查 ， 这 是 
E 地 增加 静态 类 型 信息 ， 从 而 同时 享受 了 动态 类 型 和 静态 类 型 双方 的 优点 。 


























扩大 ， 可 以 阶段 性 
这 样 一 说 的 话 好 像 也 能 说 得 通 ,但 与 此 同时 ， 我 还 是 会 对 这 种 机 制 是 否 能 够 成 功 表示 怀疑 。 


下 诞生 的 Dart, 今后 会 不 会 普及 呢 ? 
E 由 有 很 多 ， 首 先 一 个 就 是 期 望 与 现实 的 





Dart 的 未 来 


那么 ， 在 这 样 的 背景 








个 人 认为 ，Dart 的 未 来 还 真 不 能 说 有 和 多么 光明 。 焉 
言 得 以 立足 的 库 ,框架 、 


a] 











差距 。 
一 种 编程 语言 并 不 是 有 了 语言 的 引擎 就 算 完 成 了 , 而 是 必须 在 这 种 语 
应 用 程序 等 “生态 圈 ” 成 熟 起 来 之 后 ， 其 价值 才 真正 开始 体现 。 而 要 走 到 这 一 步 ， 需 要 花 上 很 
多 年 的 时 间 。Dart 诞生 在 Google 公司 这 样 的 名 门 中 ， 天 生 就 被 赋予 了 很 大 的 期 望 ， 但 要 想 实 际 
建立 起 自己 的 生态 圈 ， 并 成 为 一 种 可 用 的 语言 ， 所 要 花费 的 时 间 并 不 会 和 其 他 语言 有 什么 不 同 。 
Dart 是 否 能 够 忍受 住 期 望 和 现实 之 间 的 差距 ， 目 前 还 是 未 知 数 。 
此 外 ,Dart 当初 的 目标 是 为 了 打倒 JavaScript, 但 它 的 对 手 拥有 大 量 的 用 户 社区 和 应 用 程序 ， 
bh 赤 手 空 拳 一 般 。 基 于 类 的 对 象 系统 也 好 ， 


作为 新 手 的 Dart ( 尽管 有 Google 公司 作为 后 盾 ) 却 仿 全 
非 强 制 性 静态 类 型 也 好 ， 虽 然 都 是 不 错 的 概念 ， 但 这 些 是 否 具备 足够 的 独创 性 和 魅力 ， 来 弥补 
前 面 所 说 的 压倒 性 劣势 呢 ? 我 只 能 表示 怀疑 。 还 有 ,在 Dart 实用 化 之 前 ，JavaScript 也 一 定 会 完 
成 进一步 的 进化 ， 战 斗 的 形势 十 分 严峻 。 

话说 回来 ， 编 程 语言 是 一 种 “10 年 也 就 幼儿 园 小 孩 水 平 ” 的 耐久 型 领域 ， 未 来 的 事 谁 都 无 










































































法 预测 ， 我 们 只 能 继续 关注 Dart 的 发 展 了 。 
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最 近 ，JavaScript 的 发 展 十 分 惊人 ， 有 一 种 语言 试图 借 JavaScript 之 威风 争 得 一 席 之 地 ， 下 
面 我 们 就 来 介绍 一 下 这 种 语言 一 一 CoffeeScript。 


尺 最 普及 的 语言 





世界 上 的 编程 语言 种 类 相当 多 ， 据 说 有 成 和 干 上 万 种 。 要 说 其 中 最 普及 的 ， 或 者 换个 说 法 ， 
其 引擎 被 安装 数量 最 多 的 语言 ， 恐 怕 非 JavaScript 莫 属 了 。 





最 近 的 计算 机 用 户 都 不 大 会 去 编程 了 ， 但 几乎 所 有 人 都 会 访问 网 站 吧 。 访 问 网 站 ， 甚 至 已 
经 成 为 “上 网 ”的 代名词 。 现 在 世上 几乎 所 有 的 Web 浏览 器 都 内 置 了 了 JavaScript 引擎 。PC 上 的 
Internet Explorer、Firefox 、Safari 、Chrome 等 自 不 必 说 ， 就 连 智 能 手机 甚至 是 非 智能 手机 的 浏览 
器 上 都 装 上 了 JavaScript 引擎 。 


























随 着 移动 设备 的 兴起 ， 尤 其 是 考虑 到 非 智能 手机 的 普及 率 ， 完 全 可 以 断言 JavaScript 就 是 最 
普及 的 语言 。 而 正 是 因为 有 了 如 此 之 高 的 普及 率 ， 才 进一步 推动 了 其 重要 性 的 不 断 上 升 。 








匀 被 误解 最 多 的 语言 





另 一 方面 ，JavaScript 也 可 以 说 是 被 误解 最 多 的 语言 。 





JavaScript 是 由 原 Netscape Communications 公司 的 布 兰 登 ' 艾 克 ， 于 1995 年 开发 的 一 
种 用 于 扩展 浏览 器 功能 的 编程 语言 。 最 初 它 被 命名 为 LiveScript， 但 当时 正好 是 美国 Sun 
Microsystems 公司 ( 现 被 Oracle 公司 收购 ) 的 Java 方兴未艾 之 际 ， 再 加 上 Netscape 和 Sun 之 间 
有 业务 上 的 合作 ， 因 此 为 了 在 市 场 宣传 上 更 有 冲击 力 ， 就 改名 为 JavaScript 了 。JavaScript 中 大 
量 使 用 了 花 括 号 ， 看 上 去 和 Java 有 点 像 ， 但 其 语言 核心 意义 的 部 分 和 Java 是 完全 不 同 的 ， 因 此 
这 个 名 字 便 成 了 招致 重大 误解 的 元 多。 






































在 JavaScript 还 没 成 名 的 时 候 ， 就 经 背 听 到 类 似 “JavaScript 就 是 Java 吧 ” 这 样 的 说 法 ， 还 
有 很 多 人 认为 只 要 学 会 Java 也 就 学 会 了 JavaScript。 
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JavaScript 本 来 的 目的 ， 是 为 了 编写 点 击 网 页 按钮 时 所 需 的 一 些 简单 的 处 理 逻 辑 ， 由 这 一 点 
又 招致 了 第 二 个 误解 一 一 JavaScript 是 只 能 完成 简单 工作 的 简易 语言 。 然 而 实际 上 则 出 乎 意料 ， 
JavaScript 是 一 种 设计 良好 的 语言 ， 它 拥有 基于 原型 的 面向 对 象 功能 ， 可 以 将 函数 作为 对 象 来 使 
用 ,在 此 基础 上 还 提供 了 正式 的 闭 包 功能 。 由 于 它 可 以 进行 函数 型 编程 ， 因 此 从 语言 的 语义 上 
来 看 ， 有 接近 Scheme 的 一 面 。 




















利用 JavaScript 的 良好 设计 ， 微 软 公司 实现 了 动态 网 页 DynamicHTML ， 像 Google 地 图 
这 样 大 量 运 用 JavaScript 的 网 站 也 开始 不 断 出 现 ， 这 让 人 们 对 于 JavaScript 的 印象 发 生 了 转变 。 
Google 地 图 是 Ajax( Asynchronous JavaScript and XML ,异步 JavaScript 与 XML ) 编 程 风 格 的 先驱 。 
如 今 , 使 用 JavaScript 制作 视觉 特效 , 以 及 用 Ajax 实现 无 页 面 迁 移 的 网 站 , 已 经 一 点 都 不 稀奇 了 。 








当初 ，JavaScript 作为 Netscape Navigator 浏览 器 内 置 的 客户 端 语言 问 握 ， 后 来 又 逐渐 内 置 
到 其 他 一 些 浏 览 器 中 。 然 而 ， 由 于 各 公司 对 JavaScript 的 实现 是 在 参考 Netscape 的 基础 上 独自 
开发 的 ， 因 此 浏览 器 之 间 的 兼容 性 很 低 ， 这 让 程序 员 感 到 十 分 痛苦 。 早 期 的 JavaScript 程序 员 ， 
需要 运用 各 种 各 样 的 方法 来 判断 浏览 器 类 型 ， 为 了 回避 兼容 性 问题 而 做 出 很 大 的 努力 。 在 1997 
年 ， 由 ECMA "规范 作为 “ECMAScript” 实 现 标准 化 以 来 ， 这 一 问题 得 到 了 很 大 的 改善 。 即 便 
如 此 ， 依 然 还 有 一 些 人 在 使 用 着 老 版 本 的 Internet Explorer， 因 此 大 家 还 没有 完全 从 兼容 性 问题 
中 解放 出 来 。 

最 后 的 误解 是 关于 性 能 。JavaScript 的 变量 和 表达 式 没有 类 型 信息 ， 具 备 动态 性 质 ， 因 此 其 
性 能 和 Java 等 静态 类 型 语言 相 比 具有 劣势 。 实 际 上 ， 早 期 的 JavaScript 引擎 在 实现 上 并 没有 过 
于 追求 性 能 ， 然 而 ， 随 着 JavaScript 应 用 范围 的 扩大 ， 这 一 点 也 得 到 了 巨大 的 改善 。 




































































作为 编程 语言 来 说 ， 经 党 被 关注 的 一 点 ， 就 是 同样 的 算法 用 各 种 不 同 的 语言 实现 的 时 候 ， 
相互 之 间 有 多 少 性 能 上 的 差异 。 这 一 点 上 ， 一 般 认 为 采用 能 获得 更 多 性 能 改善 信息 的 静态 类 型 ， 
且 以 编译 需 作 为 引擎 的 语言 性 能 比较 高 ， 例 如 C++ 和 Java 等 。 


















































然而 从 根本 上 讲 ， 性 能 应 该 与 引擎 的 性 质 有 关 ， 而 和 语言 的 种 类 是 无 关 的 。 因 此 ， 像 





























GD ECMA 是 一 个 信息 和 电信 标准 组 织 ， 原 名 “欧洲 计算 机 制造 商 协会 ”( European Computer Manufacturer 
Assosications )， 后 来 随 着 该 组 织 的 国际 化 ， 虽 沿用 ECMA 这 个 名 称 (一 般 称 为 ECMA International )， 但 已 
经 不 代表 之 前 的 全 称 了 。 该 组 织 以 JavaScript 为 基础 制定 的 标准 化 规范 “ECMAScript” 编 号 为 ECMA-262， 
JavaScript 是 该 规范 的 兼容 和 扩展 版 本 。 
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JavaScript 是 动态 语言 因此 速度 慢 这 种 印象 并 非 普遍 事实 ， 而 是 由 该 语言 的 引擎 在 实现 上 做 出 了 
多 大 的 努力 而 决定 的 。 





的 确 ， 早 期 的 JavaScript 引擎 性 能 并 不 算 高 。 然 而 随 着 JavaScript 被 广泛 使 用 ， 其 重要 性 也 
跟着 提高 ， 对 JavaScript 引 警 的 投资 也 得 到 了 扩大 ， 各 种 高 速 引擎 相继 问世 。 刚 刚 诞 生 之 际 的 
Java, 由 于 需要 通过 字 节 人 码 解 释 需 来 工作 ,和 C++ 等 原生 语言 相 比 速度 慢 了 不 少 ,甚至 有 人 说 :“ 这 
种 东西 完全 不 能 用 。” 但 仅仅 过 了 不 久 , Java 的 性 能 就 得 到 了 大 幅度 的 改善 , 现在 在 某 些 情况 下 ， 
甚至 能 够 实现 超越 C++ 等 语言 的 性 能 ， 这 和 JavaScript 现象 十 分 类 似 。 








最 近 的 JavaScript 引擎 中 ， 由 于 采用 了 JIT、 特 殊 化、 分 代 垃 圾 回收 等 技术 ， 在 动态 语言 中 
已 经 可 以 归 和 人 速度 最 快 的 级 别 了 。 


JIT 是 Just In Time Compiler 的 缩写 ， 指 的 是 在 程序 运行 时 将 其 编译 为 机 器 语言 的 技术 。 由 
于 编译 为 机 咒语 言 的 程序 可 以 以 CPU 原本 的 速度 来 运行 ， 因 此 能 够 克服 解释 絮 所 带 来 的 劣 热 。 
JIT 在 JVM (Java Virtual Machine ，Java 虚拟 机 ) 中 也 得 到 了 运用 。 








所 谓 特殊 化 ， 指 的 是 一 种 在 将 函数 转换 为 内 部 表达 时 所 运用 的 技术 。 通 过 假定 参数 为 特定 
类 型 ， 事 先 准 备 一 个 特殊 化 的 高 速 版 本 ， 在 函数 调用 的 开头 先 执行 类 型 检查 ， 当 前 提 条 件 成 立 
时 直接 运行 高 速 版 本 。 动 态 语言 运行 速度 慢 的 理由 之 一 ， 就 是 因为 在 运行 时 需要 伴随 大 量 的 类 
型 检查 ， 而 通过 特殊 化 则 可 以 回避 这 一 不 利 因素 。 













































































分 代 垃 圾 回收 ， 是 一 种 对 不 再 使 用 的 对 象 进行 回收 的 垃圾 回收 (Garbage collection ) 算法 。 
垃圾 回收 有 一 些 比较 普通 的 方法 ， 如 标记 清除 法 。 这 种 方法 对 由 程序 ( 变量 等 ) 引用 的 对 象 进 
行 递归 式 扫描 , 标记 出 “存活 对 象 "， 并 认为 剩 下 的 对 象 将 来 不 再 被 访问 , 将 其 作为 “死亡 对 象 ” 
进行 回收 。 这 种 方法 的 缺点 是 ， 程 序 中 生成 的 对 象 数量 越 多 ， 为 了 找到 存活 对 象 所 需 的 扫描 次 
数 就 越 多 。 如 果 运 行 时 间 的 很 大 一 部 分 都 消耗 在 垃圾 回收 上 的 话 ， 性 能 就 会 降低 。JavaScript 开 
发 的 程序 ， 随 着 规模 的 扩大 ， 对 象 数量 也 跟着 增加 ， 采 用 标记 清除 法 所 带 来 的 性 能 下 降 问 题 也 
就 愈 发 显著 。 
























































要 改善 这 个 问题 ， 其 中 一 个 方法 就 是 分 代 回 收 。 在 大 部 分 程序 中 都 存在 这 样 一 种 趋势 ， 即 
所 生成 的 对 象 的 一 大 半 都 只 被 使 用 很 短 的 一 段 时 间 就 不 再 被 访问 了 ， 而 存活 下 来 的 一 部 分 对 象 ， 
却 拥 有 非常 长 的 寿命 。 在 分 代 回 收 中 ， 将 对 象 划分 为 新 生 代 和 老生 代 ( 根据 情况 还 可 能 划分 更 
多 的 代 ) 两 个 组 。 其 中 对 新 生 代 频 繁 进行 扫描 ， 而 对 老生 代 只 偶尔 进行 扫描 ， 从 而 减少 了 整体 
的 扫描 次 数 。 








由 于 上 述 这 些 技术 的 运用 ，JavaScript 得 以 在 为 数 不 多 的 动态 语言 中 跻身 速度 最 快 的 行列 。 
Ruby 当然 也 被 超越 了 ， 感 到 相当 寂寞 呢 。 
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第 3 齐 编 程 语言 的 新 潮流 


仿 对 JavaScript 的 不 满 











那么 ， 虽 然 JavaScript 人 气 如 此 之 高 ， 使 用 又 如 此 广泛 ， 但 随 着 用 户 数量 的 增加 ， 还 是 招致 
了 越 来 越 多 的 不 满 。 








JavaScript 从 语法 和 语义 上 来 看 都 非常 简单 ， 基 本 上 是 一 种 非常 优秀 的 语言 。 然 而 ， 它 的 语 
法 有 些 过 于 简单 了 ， 有 很 多 人 对 程序 容易 变 得 元 长 感到 不 满 。 多 年 以 来 ,我 一 直 主 张 过 于 简单 
的 语言 一 定 不 会 让 程序 员 开 心 ， 因 此 这 一 不 满 也 可 以 说 是 应 验 了 我 的 观点 吧 。 








为 了 让 语言 功能 变 得 更 加 丰富 ， 出 现 了 一 些 如 prototype.js、jQuery 之 类 的 库 ， 其 中 增加 了 
一 些 方法 ,让 JavaScript 的 对 象 用 起 来 有 Ruby 的 感觉 。 当 然 , 这 些 库 所 提供 的 功能 并 不 仅 限 于 此 。 





QCoffeeScript 
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于 是 ， 为 了 解决 对 JavaScript 语法 上 的 不 满 ，CoffeeScript 做 出 了 尝试 。CoffeeScript 是 由 
Jeremy Ashkenas 开发 的 。Ashkenas 拥有 多 种 编程 语言 的 经 验 ， 还 开发 过 用 于 从 Ruby 访问 视觉 
设计 语言 Processing "的 Ruby Processing。 














也 许 是 出 于 这 样 的 背景 ，CoffeeScript 在 语法 上 貌似 受 Ruby 和 Python 的 影响 很 大 。 两 者 相 
比 的 话 ， 应 该 还 是 受 Python 影响 更 大 一 些 。 





所 谓 CoffeeScript， 一 言 以 英之， 就 是 用 Javascript 实现 的 用 于 编写 JavaScript 的 方便 语言 。 
CoffeeScript 是 一 种 可 以 弥补 JavaScript 缺点 和 不 满 的 、 拥 有 独自 语法 的 编程 语言 ， 和 JavaScript 
之 间 完 全 没有 兼容 性 。 然 而 ，CoffeeScript 程序 在 运行 前 需要 被 编译 为 JavaScript， 然 后 作为 
JavaScript 程序 来 运行 。 也 就 是 说 , 虽然 程序 看 上 去 完全 不 同 , 但 其 语义 的 部 分 却 是 完全 相同 的 。 












































进一步 说 ，CoffeeScript 的 编译 器 是 用 JavaScript 编写 的 。 也 就 是 说 ， 只 要 有 JavaScript， 
CoffeeScript 编写 的 程序 就 可 以 在 浏览 器 上 直接 运行 。 很 多 语言 都 因为 无 法 在 客户 端 使 用 ， 从 而 
不 得 不 转向 服务 需 端 环境 ， 而 这 一 性 质 可 以 说 是 CoffeeScript 的 一 个 巨大 优势 。 








基于 这 些 优势 ， 以 及 我 们 后 面 要 介绍 的 CoffeeScript 所 具有 的 其 他 优秀 性 质 ，Ruby on Rails 
从 3.1 版 本 开始 ， 正 式 采纳 了 CoffeeScript。 











于 视觉 设计 和 绘图 的 开源 编程 语言 ( 及 IDE 开发 环境 )， 发 布 于 2001 年 。 








工 








人 Processing 是 一 种 上 
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3.4 CoffeeScript 


名 安装 方法 





CoffeeScript 的 安装 方法 有 好 几 种 ， 在 Ubuntu 等 Debian 系 Linux 环境 中 ， 可 以 像 平 常 一 样 
作为 软件 包 进 行 安装 。 


$ sudo apt-get install coffeescript 


或 者 ， 可 以 使 用 node.js (参见 6.4 节 ), 通过 它 的 软件 包 系统 npm 来 进行 安装 。 
$ sudo npm install coffee-script 


除 此 之 外 的 情况 ， 则 可 以 从 http://coffeescript.org/ 下 载 tar.gz 文件 。 





安装 完毕 之 后 就 可 以 使 用 coffee 命令 了 。 输 入 coffee -h 可 以 显 令 行 选 项 一 览 。 
基本 的 用 法 


$ _ coffee 程序 .coffee 


( CoffeeScript 程序 一 般 用 .coffee 作为 扩展 名 可 0 CoffeeScript 程序 。 
要 将 CoffeeScript 程序 编译 为 JavaScript， 可 以 使 用 “-c” 选 项 。 





$ _ coffee -C 程序 .coffee 


结果 就 会 输出 一 个 扩展 名 替换 为 .js 的 文件 ， 即 编译 后 的 JavaScript 程序 。 











饼 声 明和 作用 域 


我 自己 几乎 没有 用 JavaScript 编程 的 经 验 ， 不 过 听 身 为 JavaScript 程序 员 的 好 友 说 ， 对 
JavaScript 的 不 满 之 一 ， 就 是 它 的 变量 声明 和 作用 域 。 
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在 JavaScript 中 ， 局 部 变量 需要 用 保留 字 “var” 进 行 显 式 声明 ， 如 果 不 小 心 忘记 声明 ， 这 
个 变量 就 会 变 成 全 局 变量 。 由 于 全 局 变量 在 任何 地 方 都 可 以 访问 和 修改 ， 于 是 就 变 成 一 个 孕 
bug 的 可 怕 温 床 。 

在 CoffeeScript 中 ， 对 这 一 点 进行 了 反省 ， 对 于 变量 引用 的 规则 做 出 了 一 些 修改 。 首 先 ， 变 
量 的 声明 不 需要 用 var， 而 是 通过 赋值 来 进行 。 在 函数 中 第 一 个 赋值 语句 被 视 为 对 局 部 变量 的 声 
明 ， 这 一 点 与 Ruby 和 Python 十 分 相似 。 例 如 : 




















2 














foo = 42 
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在 CoffeeScript 中 只 是 一 个 单纯 的 赋值 语句 ， 但 编译 为 JavaScript 后 ， 则 变 成 了 : 

















var foo; 
foo = 42; 


CoffeeScript 减少 了 声明 ， 看 上 去 更 加 简洁 。 








由 于 CoffeeScript 中 通过 赋值 语句 会 将 所 有 的 变量 都 声明 为 局 部 变量 ， 因 此 要 创建 全 局 变量 
是 不 可 能 的 。 和 JavaScript 不 同 ,CoffeeScript 中 位 于 顶层 的 变量 不 是 全 局 变量 ,而 是 局 部 变量 ( 除 
韭 用 “-b” 选 项 进行 显 式 指定 )。 
































此 外 ， 由 于 不 存在 对 局 部 变量 的 显 式 声 明 ， 因 此 当 外 侧 作 用 域 中 存在 同名 变量 时 ， 则 以 外 
侧 变 量 优先 。 如 果 无 意 中 使 用 了 同名 变量 ， 则 有 可 能 产生 难以 发 现 的 bug。Ruby 中 也 有 同样 的 
问题 ， 但 在 Ruby 1.9 之 后 版 本 中 ， 可 以 通过 对 代码 块 作用 域 固有 的 局 部 变量 进行 显 式 声明 来 回 
避 这 一 问题 。 























CoffeeScript 中 可 以 在 变量 名 前 面 加 上 @ 来 进行 引用 ， 这 相当 于 : 





this .变量 名 


的 缩写 。 对 实例 变量 的 引用 使 用 “@” 这 一 点 和 Ruby 很 像 呢 。 








此 外 ， 变 量 名 等 末尾 还 可 能 出 现 “?”。 这 种 写法 乍 一 看 好 像 也 是 从 Ruby 来 的 ， 但 实际 上 意 
思 完 全 不 同 。Ruby 中 如 果 在 方法 名 末尾 加 上 “?”， 表 示 该 方法 是 一 个 谓词 方法 (返回 真 假 值 的 
方法 )。 而 在 CoffeeScript 中 ,变量 名 后 面 加 上 “?” 则 表示 “该 变量 为 null 和 undefined 以 外 的 值 ”。 








因此 ， 从 这 个 概念 进行 类 推 : 





5 

表示 当 a 为 null 或 undefined 时 则 为 b， 而 : 
a?() 

表示 当 a 为 null 或 undefined 时 则 为 undefned， 否 则 将 a 作为 函数 进行 调用 ， 而 : 
a?.b 


则 表示 “ 当 a 为 null 或 undefined 时 则 为 undefined， 否则 引用 a 中 的 b 这 一 属性 ”。 





例如 ,将 “a?.b" 编 译 为 JavaScript 后 如 图 1 所 示 。undefined 的 检查 方法 非常 简单 ,很 容易 理解 。 
由 于 有 很 多 方法 在 出 错 或 遇 到 异常 时 会 返回 null 和 undefined， 如 果 使 用 这 个 功能 的 话 ， 可 以 在 
出 错时 跳 过 后 面 的 处 理 逻 辑 ， 从 而 让 程序 变 得 更 加 简洁。 
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typeof a === "undefined” || a == undefined ? undefined : a.b; 
到 1 “a?.b” 的 编译 结果 
CoffeeScript 也 支持 多 重 赋值 ， 如 : 














则 表示 将 a 赋值 为 1， 将 b 赋值 为 2。 和 了 Ruby 不 同 的 是 ， 不 仅 是 数组 ， 连 字典 ( map ) 也 可 以 
进行 展开 式 的 多 重 赋值 ， 如 : 





[人 
表示 将 a 赋值 为 3， 将 b 赋值 为 4。 此 外 ， 还 可 以 指定 变量 名 ， 如 : 
(eanoo, loelver = (Vee oe Io eh 
表示 将 foo 赋值 为 3， 将 bar 赋值 为 4。 
多 重 赋值 看 似 简单 ， 其 实 编译 为 JavaScript 之 后 会 变 得 相当 复杂 ( 图 2 )。 





Vaire eam eae ae fo 
/amb = ua 


/anfioom am = lar DA 
b= 








到 2 多 重 赋值 的 编译 结果 














依 分 号 和 代码 块 


个 人 认为 ，CoffeeScript 最 重要 的 改善 点 ， 就 是 上 面 讲 到 的 对 声明 的 省 略 以 及 对 全 局 变量 问 
题 的 解决 。 然 而 ， 看 了 CoffeeScript 所 编写 的 程序 之 后 ， 给 我 留 下 最 深 印 象 的 却 并 非 是 上 面 这 一 
点 ， 而 是 对 分 号 的 省 略 ， 以 及 通过 缩 进 来 表现 代码 块 。 











在 CoffeeScript 中 , 像 Python 一 样 是 通过 缩 进来 表现 代码 块 的 。 例 如 , 匿名 函数 可 以 这 样 写 : 


这 
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console.10g(a) 

a*d 
在 不 必 每 次 都 写 function 的 同时 ， 还 可 以 将 多 行 的 匿名 函数 用 非常 简洁 的 方式 表达 出 来 。 由 于 
JavaScript 是 将 函数 作为 对 象 来 对 待 的 ， 因 此 可 以 使 用 高 阶 函 数 的 编程 风格 ， 但 匿名 函数 的 表达 
十 分 繁琐 ， 经 常 让 人 感到 非常 痛苦 。 而 且 ，CoffeeScript 中 最 后 一 个 被 求 值 的 表达 式 会 自动 成 为 
返回 值 ， 和 必须 写 return 的 JavaScript 相 比 ， 程 序 的 表达 更 加 简洁 。 


值得 注意 的 是 ， 在 将 包括 代码 块 在 内 的 值 作为 参数 的 情形 。 同 样 是 用 缩 进来 表现 代码 块 的 
Python 中 ， 创 建 匿名 函数 的 lambda 表达 式 中 ， 葡 数 体 只 能 采用 单一 的 表达 式 ， 而 要 将 多 行 函数 
作为 对 象 来 使 用 ， 则 必须 先 作 为 局 部 作用 域 进行 命名 和 定义 ， 这 个 规则 显得 相当 麻烦 。 


作为 后 起 之 秀 ，CoffeeScript 自然 考虑 到 了 这 个 问题 ， 只 要 用 括号 整个 括 起 来 ， 就 可 以 当做 
表达 式 来 使 用 了 。 例 如 ， 像 下 面 这 样 : 
































something(((a)-> 
console.10g(1) 
Ol 2 Gy 2) 


缩 进 表 现 的 代码 块 不 仅 可 以 用 于 匿名 函数 ， 对 让 和 while 结构 同样 有 效 。 例 如 : 
让 人 CO 


else 
2 








这 样 的 块 状 结构 ， 当 程序 体 只 有 一 行 时 就 可 以 在 一 行 中 进行 表达 ， 如 : 
Sq = (0 > aa 
或 者 是 : 


a= if cond() then 1 else 2 





正如 上 述 例子 中 所 示 ，CoffeeScript 中 的 让 语句 实际 上 是 一 个 表达 式 ， 可 以 返回 值 。 因 此 ， 
“~2~:~” 这 样 的 三 项 操作 符 就 没有 必要 使 用 ， 作 废 了 。 


名 省 略 记 法 





正如 缩 进 表现 的 代码 块 一 样 ，CoffeeScript 的 设计 方针 是 让 表达 尽量 简洁 。 例 如 ，JavaScript 
中 为 了 分 隔 语句 而 必须 使 用 分 号 ， 在 CoffeeScript 中 则 完全 不 需要 使 用 分 号 。 








函数 调用 中 包围 参数 的 括号 ， 当 只 有 一 个 参数 时 也 可 以 省 略 。 不 过 ， 当 一 个 参数 都 没有 的 
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时 候 , 就 无 法 区 分 到 底 是 调用 函数 呢 , 还 是 对 函数 对 象 进行 引用 。 因此 这 种 情况 下 ,在 调用 函数 时 ， 
还 是 要 加 上 0O (图 3)。 





CoffeeScript 中 对 象 的 括号 也 是 可 以 省 略 的 (图 4 )。 


# JavaScript 的 写法 
0 = [asl., 632 
# 省 略 括号 











# 参数 的 括号 可 以 省 略 ob = :le 
console.1og("he11o") # 用 换行 和 缩 进来 表现 
console.10g "hello" # 过 号 也 省 略 了 
a=->1 obj = 
a  # 返回 1 的 函数 对 象 a:l 
a()# 调用 函数 ,返回 1 DR 

图 3 函数 调用 的 情况 图 4 对 象 的 括号 可 以 省 略 






































饼 字 符 惠 








CoffeeScript 的 字符 串 也 很 有 讲究 。 首 先 ，Ruby 中 也 具备 的 表达 式 藤 入 功能 。 如 下 所 示 ， 
在 字符 串 中 用 “#” 包 围 起 来 的 表达 式 ， 它 的 值 会 被 舱 入 到 字符 串 中 。 





name = "Matz" 
console.1og "Hello #{name}" 


此 外 ,还 可 以 像 Python 一 样 ， 用 三 重 引号 来 表示 跨行 字符 串 ( 图 5 )。 











三 重 引 号 在 需要 将 类 似 XML 这 样 的 长 字符 串 a el 
写 入 程序 中 的 情况 下 非常 有 用 。 有 趣 的 是 ， 在 这 里 console.10g "a 








. 和 四 b 
CoffeeScript 是 从 Ruby 和 Python 中 平等 地 借鉴 它们 # 换行 有 效 , 值 为 
的 功能 呢 。 # a 
# b 
; i . > 1 | LRAL 
话说 ，CoffeeScript 的 注释 也 和 Ruby、Python 一 | WE 








样 是 用 “#” 开 头 的 (JavaScript 是“//”)， 从 三 重 引 
号 进行 类 推 ,“ 需 #” 就 表示 直到 下 一 个 “jp##” 为止 “图 5 三 重 引 号 表示 的 字符 上 
的 多 行内 容 全 部 为 注释 。 




















UU 











仿 数 组 和 循环 





CoffeeScript 中 的 数组 也 很 有 讲究 。 不 过 很 遗憾 ， 数 组 没 办 法 像 对 象 一 样 省 略 外 侧 的 括号 。 
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数组 也 有 省略 记 法 ， 比 如 看 上 去 很 像 Ruby 的 范围 表达 式 : 


[1..4] 


这 种 写法 表示 “从 1 到 4”， 编 译 成 JavaScript 结果 如 下 : 


[23 区 4 





不 过 ， 如 果 范 围 两 端的 任 一 端 使 用 变量 的 话 ， 编 译 出 来 就 会 变 成 图 6 这 样 复杂 的 结 









































大 家 对 JavaScript 数组 的 一 个 不 满 ， 就 是 针对 其 内 容 的 循环 比较 难 写 (网 7)。 于 是 ,在 


CoffeeScript 中 ，for~in~ 循环 为 数组 专 月 





月， 而 对 于 对 象 成 员 的 访问 ， 则 使 用 另 一 种 for~of~ 循环 





来 实现 。 为 了 让 大 家 理解 它们 的 区 别 ， 我 们 将 图 8 中 的 CoffeeScript 程序 编译 成 JavaScript 的 结 


果 显 示 在 图 9 中 。 





# a=4; [1..a] 

Wal ep 1 MESuliess 

Bl 

(unetnon 二 本 1 
_results = []; 


For (Var 2 = ds 
<= 8 <0 
aa， 
人 < 
_results.push(_i); 
} 


return _results; 
}).apply(this); 


图 6 数组 范围 表达 式 编译 结果 





























// (a) 本 来 是 想 获取 数组 的 内 容 

Wel ver lip 

ol /eNO 

fom a yn 
console.10g(i); 

} 

// 结果 显示 的 不 是 内 容 而 是 索引 


// (b) 要 获取 数组 的 内 容 应 使 用 如 下 方法 
We 
ore 0mlene olengthe nn en 
Tt) 
1 a 0s 
console.10g(i); 


} 
// 这 样 才能 真正 显示 数组 的 内 容 


// (c) for~in~ 原 本 是 面向 对 象 的 

Vee ob 

oby = foo Da 

formaine ob 
console.10g(i); 

} 

// 可 以 取得 对 象 的 成 员 名 称 








图 7 ”JavaScript 的 数组 循环 
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和 


BI | 

Oo = oo ee oe yl 

# 数组 用 循环 ( 显示 其 元 素 ) 

tom na 
console.log i 


# 对 象 是 无 法 循环 的 

# 因为 它 不 是 数组 

oe a in ood) 
console.1og i 


# for~of 相 当 于 JavaScript 的 for~in~ 


# 显示 成 员 名 称 
oor ol 
console.1og i 


# 显示 索引 
OILEOTEaIRY， 
console.log i 


8 CoffeeScript 的 for 循环 





到 











3.4 CoffeeScript 


wa ene J Colon 0 ns 
_len2; 

amy 0 0: 

cbt 
让 OO 
Deal: 

5 

for (_i= 0, _len = ary.length; 

nxn mit 

i amy al 
consolealodq 人 NE 

] 

RO Om en obge em 

< mer a 

J lol ls 
consoleslooGins: 

J 

To OT Tm GT A 
console.10g(i); 

} 

om na 
console.10g(i); 





令 
CO 
人 设 





到 8 程序 的 编译 结果 



































JavaScript 是 基于 原型 的 面向 对 象 语言 ， 因 此 并 不 像 基于 类 的 语言 一 样 ， 具 备 直 接 支持 类 定 
义 和 方 法 定义 等 功能 的 语法 。 另 一 方面 ，JavaScript 虽然 提供 了 用 于 从 原型 生成 新 对 象 的 new 语 
名 ,但 不 知 为 何 ， 作 为 原型 的 却 是 孔 数 对 象 ， 总 是 让 人 感觉 怪 怪 的 。 














虽然 这 也 可 以 说 是 一 种 策略 吧 ， 不 过 作为 
长 期 以 来 习惯 了 基于 类 的 面向 对 象 语言 的 人 来 
说 ， 多 少 会 觉得 痛苦 。 因 此 ，CoffeeScript 中 提 








供 了 class 语句 ， 可 以 做 到 看 上 去 像 是 基于 类 的 


面向 对 象 语言 。 实 际 上 ， 新 版 本 的 JavaScript 中 
也 提供 了 class 语句 ， 但 出 于 兼容 性 上 的 考虑 ， 
CoffeeScript 并 没有 直接 使 用 JavaScript 的 class 








语句 。 


CoffeeScript 的 class 定义 如 图 10 所 示 。 和 


CoffeeScript 的 简洁 相 比 ， 绵 




















译 为 JavaScript 之 后 




















class Person 
# 构造 方法 
# Ruby 的 initialize, Python 的 init 
constr uctor: namey > 
@name = name 


# 继承 
class SalaryMan extends Person 
constructor: (mame osalary > 
# 调用 超 类 的 方法 
Super(Cname) 
earn: => console.1o0g "you earn #{@ 
salary} YEN a month." 
salaryman = new SalaryMan("Matz", 
00) 


10 ”CoffeeScript 的 类 定义 








区 
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的 结果 就 显得 十 分 复杂 。 当 然 ， 这 是 让 JavaScript 硬 生生 配合 CoffeeScript“ 面 子 工程 ”的 结果 ， 
也 许 并 不 能 说 是 一 种 公平 的 比较 吧 。 


10 中 还 有 一 些 很 有 意思 的 地 方 ， 比 如 在 子 类 的 方法 中 可 以 像 Ruby 一 样 使 用 super， 以 及 
在 方法 参数 中 加 上 “@” 就 可 以 不 必 通 过 显 式 赋值 来 对 实例 变量 进行 初始 化 。 


此 外 ,图 10 中 还 有 一 点 值得 注意 。 在 SalaryMan 类 的 earn 方法 定义 中 ， 用 于 函数 对 象 的 箭 
头 不 是 “->” 而 是 “=>”。 在 CoffeeScript 中 ,“=>” 被 称 为 胖 箭 头 〈fat arrow )。 











JavaScript 中 ， 目 前 是 通过 this 来 表达 上 下 文 的 ， 说 实话 ，this 会 在 哪 一 个 时 间 点 绑 定 什么 
这 一 点 有 些 难以 理解 。 尤 其 是 在 事件 回调 等 情况 下 ， 在 被 调用 的 函数 中 ，this 到 底 指向 哪里 ， 不 
实际 试验 一 下 的 话 是 想象 不 出 来 的 。 用 胖 第 头 定 义 的 函数 对 象 中 ， 其 上 下 文 固定 为 局 部 上 下 文 ; 
而 作为 方法 进行 定义 时 ，this 永远 指向 其 接收 硕 。 这 样 一 来 关于 this 的 麻烦 也 就 消除 了 。 





还 有 一 点 ， 在 图 10 的 程序 中 没有 体现 ， 那 就 是 类 方法 究竟 应 该 如 何 定 义 。 我 们 可 以 利用 在 
class 实体 中 this 绑 定 为 正在 被 定义 的 类 这 一 点 ， 使 用 “@” 记 法 即 可 。 即 : 


class Foo 
@number = 0 
@inc: => @number++ 
constreuetor: > 
RooRiinel) 
console.1og Foo.number 


在 这 里 ，@number 是 类 对 象 Foo 的 实例 变量 ，@inc 是 类 方法 。 要 调用 类 方法 ， 需 要 像 这 样 : 








Boomiinel(e 
显 式 用 类 名 来 进行 调用 。 需 要 注意 的 是 , 类 对 象 的 实例 变量 在 创建 子 类 时 会 被 复制 ,但 并 不 共享 。 
也 就 是 说 ， 即 使 : 











class Bar extends Foo 
Ba ne) 


Foo 的 实例 变量 也 不 会 发 生变 化 。 


依 小 结 





在 这 里 我 们 无 法 涵盖 CoffeeScript 的 全 部 特性 ， 除 了 上 面 提 到 的 之 外 ， 还 有 很 多 十 分 方便 的 
功能 。CoffeeScript 给 人 的 印象 是 , 在 发 挥 JavaScript 优势 的 同时 , 为 了 消除 对 JavaScript 的 不 满 ， 
背 鉴 了 Ruby 和 Python 等 多 种 语言 的 功能 。 虽 然 它 比 原本 过 于 简单 的 JavaScript 更 加 复杂 一 些 ， 
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但 我 感觉 它 的 语言 设计 中 体现 了 一 种 绝妙 的 平衡 感 。 抛 开 利 害 关系 来 说 ， 我 其 至 觉得 有 些 地 方 
比 Ruby 更 加 优秀 。 




















CoffeeScript 的 编译 器 是 通过 JavaScript 编写 的 ， 编 译 结果 也 是 JavaScript， 因 此 只 要 有 
JavaScript 引擎 ， 无 论 在 任何 环境 下 都 可 以 工作 ， 更 何况 ， 现 在 JavaScript 引擎 可 以 说 这 地 都 是 。 
CoffeeScript 利用 这 个 优势 ， 无 论 在 服务 器 端 还 是 客户 端 ， 今 后 其 应 用 范围 都 会 越 来 越 广 ， 可 以 
说 是 将 来 值得 期 待 的 语言 之 一 。 
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ES 





Lua 是 由 巴西 里 约 热 内 卢 天 主教 大 学 的 Roberto Ierusalimschy 等 人 开发 的 一 种 编程 语言 。 据 
我 所 知 ， 诞 生 于 南美 洲 ， 并 在 全 世界 范围 内 获得 应 用 的 编程 语言 ，Lua 应 该 是 第 一 个 。 当 然 ， 
我 不 知道 除了 Lua 之 外 还 有 没有 其 他 语言 是 来 自 巴 西 的 。 























说 句 题 外 话 ， 编 程 语言 及 其 作者 的 国籍 多 种 多 样 ( 表 1 )， 大 家 可 以 看 出 ， 并 不 是 所 有 的 编 
程 语言 都 是 泛 生 于 美国 的 ,相反 ,貌似 还 是 欧洲 阵营 更 加 强大 一 些 。 尤 其 是 从 人 口 比 例 来 看 的 话 ， 
来 自 北欧 的 语言 设计 者 比例 相当 高 ， 而 来 自 南 美的 只 有 Lua,， 来 自 亚 洲 的 则 只 有 Ruby， 真 是 太 




















































































































寂寞 了 。 
表 1 编程 语言 及 开发 者 的 国籍 
语 言 开 发 者 国 ” 籍 
Fortran John Bacus 美国 
C Dennis Ritchie 美国 
Pascal Niklaus Wirth 瑞士 
Simula Kristen Nygaard 挪威 
C++ Bjarne Stroustrup 丹麦 
ML Robin Milner 英国 
Java James Gosling 加 拿 大 
Smalltalk Alan Kay 美国 
Perl Larry Wall 美国 
Python Guido van Rossum 荷兰 
PHP Rasmus Lerdof 丹麦 
Ruby 松本 行 弘 日 本 
Eiffel Bertrand Meyer 法 国 
Erlang Joe Armstrong 瑞典 
Lua Roberto Ierusalimschy 巴西 
话说 Lua 这 个 词 ， 在 葡萄 牙 语 中 是 “月 亮 ”的 意思 。Lua 的 特征 是 一 种 便于 藤 入 应 用 程序 











中 的 通用 脚本 语言 。 和 它 设 计 思 想 相似 的 语言 还 有 Tcl ( Tool Command Language )。Tcl 的 语言 
规格 被 控制 在 极 小 的 规模 ， 数 据 类 型 也 只 有 字符 串 型 一 种 ， 而 Lua 却 具备 了 所 有 作为 通用 脚本 


语言 的 功能 。 
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从 实现 上 来 说 ，Lua 的 解释 器 是 完全 在 ANSI C 的 范围 内 编写 的 ， 实 现 了 极 高 的 可 移植 性 。 
另外 ，Lnua 的 高 速 虚拟 机 实现 非常 有 名 ， 在 很 多 虚拟 机 系 性 能 评分 中 都 取得 了 优异 的 成 绩 。 








信 示 例 程 序 








人 入 消 也 = 六 从 和 
首先 ， 图 1 是 一 个 简单 的 Lua 示例 程序 ， 这 个 程序 - -在 Lua 中 以 “- - "开始 的 行为 单行 注释 


可 以 计算 阶乘 。 - -阶乘 计算 程序 
ROUTE 人 SC Cm 

Si gS ww, Un == 1 th 
怎么 样 ? end 的 用 法 等 等 是 不 是 有 点 Ruby 的 感觉 yturmm] 


呢 ? 说 实话 ， 我 在 写 Lua 程序 的 时 候 ， 经 常会 和 Ruby 搞 else en 

大 心 上 
混 ， 从 而 在 一 些 细节 的 差异 上 中 招 。 例 如 ， 定 义 不 是 def end 
而 是 function、then 是 不 能 省 略 的 、 调 用 本 数 时 参数 周围 end 


的 括号 是 不 能 省 略 的 ， 等 竺 5 pine fact 6 
1 计算 阶乘 的 Lua 程序 








到 | 








Lua 的 语法 虽然 看 起 来 有 点 像 Ruby， 但 其 内 涵 更 像 
JavaScript。 例 如 对 象 和 散 列 表 是 不 区 分 的 、 对 象 系统 是 
使 用 函数 对 象 的 等 。 观 察 一 下 Lua 的 行为 ， 就 会 觉得 处 处 都 有 JavaScript 的 影子 。 


食 数据 类 型 


作为 通用 脚本 语言 ，Lua 可 以 操作 下 列 数 据 类 型 . 


























口 数值 型 
口 字符 串 型 
口 函数 型 
口 表 型 
口 用 户 自 定义 型 




















其 中 数值 型 和 字符 串 型 是 在 各 种 语言 中 都 具备 的 普遍 数据 类 型 。 值 得 注意 的 是 ，Lua 中 的 
数值 型 全 部 是 浮 点 数 型 ， 并 没有 整数 型 。 在 其 他 语言 中 〈 如果 不 特别 声明 的 话 )， 都 是 采用 了 和 
Perl 相同 的 设计 。 函 数 和 表 我 们 稍 后 会 逐一 讲解 。 




















用 户 自 定义 类 型 ， 是 指 用 C 语言 等 对 Lua 进行 扩展 时 所 使 用 的 数据 类 型 。 文 件 输入 输出 等 
功能 也 是 以 用 户 自 定义 类 型 的 方式 来 提供 的 。 
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在 Lua 中 ， 函 数 是 和 字符 串 、 数 值 、 表 并 列 的 基本 数据 结构 。Lua 的 函数 属于 第 一 类 对 象 
( first-class object )， 也 就 是 说 和 数值 等 其 他 类 型 一 样 ， 可 以 赋值 给 变量 、 作 为 参数 传递 ， 以 及 作 


为 返回 值 接收 。 





要 获得 作为 值 的 函数 ， 需 要 使 用 不 指定 名 称 的 function 语句 。 像 图 2 中 所 示 的 指定 名 称 的 
function 语句 ， 和 用 不 指定 名 称 的 function 语句 所 创建 的 函数 进行 赋值 之 后 的 结果 是 一 样 的 。 








在 Lua 中 ,通过 最 大 限度 利用 其 函数 对 象 ， 就 实现 了 面向 对 象 编程 等 功能 。 关 于 用 Lua 实 





现 面向 对 象 编程 的 内 容 ， 我 们 稍 后 会 进行 讲解 。 





-- 函数 a 的 定义 
function a(n) 
print(n) 

end 


-- 赋值 给 变量 a 

a(5) 5 

-- 通过 type(a) 获 取 a 的 数据 类 型 
站 GE 的 





-- 通过 赋值 语句 定义 函数 
b = function (n) 
print(n) 
end 
-- 可 以 和 a 一 样 进行 调用 
DiC > 
-- 检查 b 的 类 型 
DeimbtGtypedb 0 > fnewiom 
凤 2 ”函数 对 象 











- -作为 数组 的 表 
Em = Hl 发 5 


--Lua 的 数组 索引 是 从 1 开始 的 
Diem a a el > 
- -# 是 用 来 求 长 度 的 操作 符 ( 很 像 Per1 ) 
pnimnb anay 3 


-- 作 为 散 列表 的 表 
hash Cx ,WW 2 了 让 
- -取出 散 列 表 元 素 
oe ne ews Se 1 ee 
-- 取 出 散 列 表 元 素 ( 结构 体 风 格 ) 
pnime nashy > 








- -数组 和 散 列 表 的 共存 

- -通过 赋值 添加 成 员 
array["x"] = 42 

- -通过 赋值 添加 成 员 ( 结构 体 风格 ) 
dpmray y= .55 

- -无 论 哪 种 方式 都 可 以 访问 
ma le Xl > 
pierimeallmay A 

-- 散 列表 元 素 长 度 不 包含 在 “长 度 ” 中 
DER a ay 用 六 六 





图 3 表 编 程 

















Lua 中 最 具 特 色 的 数据 类 型 是 表 (table )。 表 是 一 种 可 以 实现 在 其 他 语言 中 数组 、 散 列表 、 


对 象 所 有 这 些 功 能 的 万 能 数据 类 型 。 





JavaScript 中 也 是 用 散 列 表 来 实现 对 象 的 ， 但 数组 又 是 另外 





的 实现 方式 ， 因 此 Lua 这 种 将 散 列 表 和 数组 进行 合并 的 做 法 显得 更 加 彻底 。 像 这 样 将 数组 和 散 
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列表 合 为 一 体 的 语言 ， 除 了 Lua 以 外 还 有 PHP。 

关于 数组 和 散 列 表 的 合并 到 底 是 不 是 一 个 良好 的 选择 ， 应 该 说 还 有 讨论 的 余地 ， 但 至 少 在 
减少 语言 构成 要 素 这 一 点 上 是 有 贡献 的 。 由 于 Lua 是 动态 类 型 语言 ， 因 此 无 论 是 变量 还 是 数组 
的 元 素 都 可 以 存放 任意 类 型 的 数据 。 








Lua 中 各 种 表 的 使 用 方法 如 图 3 所 示 。 需 要 注意 的 是 ， 有 一 点 和 其 他 很 多 语言 都 不 太一 样 ， 
那 就 是 作为 数组 的 表 索 引 是 从 1 开始 的 。 的 确 ， 以 前 的 FORTRAN 和 Pascal 中 ， 数 组 的 索引 也 
是 从 1 开始 的 , 但 从 C 语言 之 后 , 最 近 的 语言 中 , 索引 基本 上 都 是 从 0 开始 了 , 因此 很 容易 搞 错 。 
特别 是 如 果 不 小 心 添加 了 一 个 索引 为 0 的 元 素 时 ， 这 个 元 素 就 不 是 作为 一 个 数组 元 素 ， 而 是 作 
为 一 个 键 为 0 的 散 列 表 元 素来 建立 的 ， 这 一 点 很 容易 中 招 。 











此 外 , 还 有 一 点 比较 违背 直觉 , 那 就 是 在 Lua 中 对 表 应 用 获取 长 度 的 操作 符 “#” 时 , 其 “长 
度 ” 只 包括 以 ( 正 ) 整数 为 索引 的 数组 元 素 ， 而 表 中 的 散 列 表 元 素 则 不 包含 长 度 中 ， 这 一 点 是 
需要 注意 的 。 











饼 元 表 
Lua 本 来 不 是 设计 为 一 种 面向 对 象 的 语言 ， 因 此 其 面向 对 象 功 能 是 通过 元 表 (meta table ) 
这 样 一 种 非常 怪异 的 方式 来 实现 的 。Lua 中 并 不 直接 支持 面向 对 象 语言 中 常见 的 类 对象 和 方法 ， 
其 中 对 象 和 类 是 通过 表 来 实现 ， 而 方法 是 通过 函数 来 实现 的 。 














说 























首先 我 们 来 讲 讲 元 表 到 底 是 什么 。 在 Lua 中 ， 表 和 用 户 自 定义 数据 类 型 中 有 元 表 这 样 一 种 
设 定 ， 这 个 设 定 通过 setmetatable() 函数 来 执行 。 对 于 表 和 用 户 自 定义 数据 类 型 来 说 ， 在 需要 执 
行 某 项 操作 时 ， 就 会 产生 与 该 操作 相对 应 的 事件 。 针 对 各 个 事件 所 进行 的 处 理 是 根据 事件 类 型 
而 决定 的 ， 但 对 于 设 定 了 元 表 的 表 和 用 户 自 定义 类 型 来 说 ，Lua 会 参照 元 表 来 进行 处 理 。 


例如 ， 在 执行 表 元 素 引 用 的 index 事件 中 ， 处 理 逻 辑 如 下 。 当 执行 table[key] 表达 式 时 ， 首 
先 会 确认 table 是 实际 的 表 ， 还 是 用 户 自 定 义 数据 等 其 他 类 型 。 




















如 果 table 为 实际 的 表 ， 则 不 通过 元 表 直 接 取 出 与 key 相对 应 的 元 素 ( 使 用 rawget 函数 )。 
如 果 表 中 存在 该 元 素 ， 则 该 元 素 即 为 该 事件 的 执行 结 














如 果 key 所 对 应 的 元 素 不 存在 ， 则 取出 table 的 元 表 ， 并 从 table 的 元 表 中 取出 _ index 这 个 
元 素 。 如 果 _ index 元 素 没有 被 创建 ， 则 返回 nil 结果 ， 结 束 事 件 处 理 。 





当 table 不 是 实际 的 表 时 ， 也 会 从 table 的 元 表 中 取出 _ index 元 素 。 如 果 _ index 元 素 没有 
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y 2 三 - 站 
被 创建 ， 则 表示 table 不 支持 index 事件 ， 产 生 -tablerkey] 对 于 table[key] 的 事件 处 理 
错误 。 function gettable event(table, key) 
Noeannm 
if type(table) = table then 
如 果 _ index 元 素 的 值 为 一 个 函数 ， 则 将 全 Vv = rawget(table, key) 
table 和 index 作为 参数 调用 该 函数 。 否 则 ， 则 Irv nlntnenmmetvun vend 
h = metatable(table). index 
忽略 table， 直 接 将 该 元 素 ( 这 里 假定 它 为 h) 证 WheneEURnEniIEEnd 





作为 表 来 使 用 ， 并 从 中 检索 key 所 对 应 的 元 素 。 else 


h = metatable(table). index 
if h == nil then 


























如 果 将 上 述 逻 辑 用 Lua 编写 出 来 ， 就 是 图 error(...) 
4 这样。 基本 上 ， 对 于 任何 事件 ， 其 处 理 都 可 es 
以 归结 为 下 面 的 逻辑 : i EypelnD funewion ten 
return (h(table, key)) --call the 
口 如 果 存 在 规定 的 操作 则 执行 它 。 i 
口 否则 ,从 元 表 中 取出 各 事件 所 对 应 的 ” ” return h[key] --or repeat operation 
开头 的 元 素 ， 如 果 该 元 素 为 函数 ， 则 调 “ena 
用 该 函数 。 en 


























口 如 果 该 元 素 不 为 函数 ， 则 用 该 元 素 代 替 ” 图 4 index 事件 处 理 
table 来 执行 事件 所 对 应 的 处 理 逻 辑 。 








Lua 所 处 理 的 事件 一 览 如 表 2 所 示 。 
表 2 ”Lua 的 事件 































































































事 件 名 说 明 备 注 
add 加 法 (+) 以 从 左 到 右 的 顺序 搜索 元 表 
sub 减法 (一 ) 同上 
mul 乘法 (* ) 同上 
div 除法 ( 同上 
mod 求 余 (% ) 同上 
pow 蚌 (^ 同上 
unm (—) 二 
concat 连接 (..) 以 从 左 到 右 的 顺序 搜索 元 表 
len 求 长 度 (#) 二 
eq 比较 (= ) 数值 、 字 符 串 则 直接 比较 
1t 小 于 (<) 大 于 (> ) 则 两 侧 对 调 
le 小 于 等 于 (<= ) 如 果 没 有 __le 则 搜索 _1t 
index 引用 元 素 ([] ) x[“key”] 和 x.key 都 会 触发 该 事件 
newindex 设 定 元 素 ([]=) 同上 
call 函数 调用 二 
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全 方法 调用 的 实现 





说 了 这 么 多 ， 元 表 到 底 该 如 何 使 用 ， 到 底 能 实现 哪些 面向 对 象 编程 ， 好 像 还 是 不 明白 呢 。 








面向 对 象 编程 的 基本 就 是 创建 对 象 和 调用 方法 。Lua 中 ,原则 上 表 是 作为 对 象 来 使 用 的 ， 
因此 创建 对 象 没有 任何 问题 。 关 于 调用 方法 ， 如 果 表 的 元 素 为 函数 对 象 的 话 ， 则 可 以 直接 调用 。 








Lua 中 可 以 这 样 写 : 
ODTf oo 


这 表示 从 obj 变量 所 存放 的 表 中 取出 以 x 为 键 的 值 , 并 将 该 值 视 为 函数 进行 调用 。 这 样 一 来 ， 
看 上 去 就 和 其 他 面向 对 象 语言 中 的 方法 调用 一 模 一 样 了 。 











不 过 ， 如 果 将 这 种 方式 作为 方法 调用 来 考虑 的 话 ， 从 面向 对 象 来 说 还 有 几 个 问题 。 





首先 ，obj.x 这 种 调用 方式 ， 说 到 底 只 是 将 表 obj 的 属性 x 这 个 函数 对 象 取出 来 而 已 。 而 在 
大 多 数 面向 对 象 语 言 中 ， 方 法 的 实体 是 位 于 类 中 ， 而 不 是 位 于 每 个 单独 的 对 象 中 。 在 JavaScript 
等 基于 原型 的 语言 中 ， 是 以 原型 对 象 来 代替 类 进行 方法 的 搜索 ， 因 此 每 个 单独 的 对 象 也 并 不 拥 
有 方法 的 实体 。 

















因此 , 在 Lua 中 ， 为 了 实现 这 样 的 方法 搜索 机 制 ， 需 要 使 用 元 表 的 index 事件 。 像 图 4 中 
说 明 的 一 样 ， 只 要 在 元 表 中 设 定 ”index， 当 key 不 存在 时 就 会 利用 ”index 来 进行 搜索 。 





于 是 ， 只 要 编写 图 5 这 样 的 程序 ， 就 可 以 将 。 wato -1 
对 象 的 方法 搜索 转发 到 其 他 的 对 象 。 x = function() print("x") end 
} 
Ne AR Eb , ON 
w 在 这 种 情况 下 ， PE 就 变 成 了 原型 对 象 ， Setmetatable(obj，{__ index = proto}) 
当 obj 中 不 存在 的 属性 被 引用 时 ， 就 会 去 搜索 obj.x() 
proto。 这 样 一 来 ， 类 似 JavaScript 这 样 基于 原型 的 ”图 5 使 用 元 表 实现 方法 搜索 


面向 对 象 编程 的 基础 就 完成 了 。 






























































不 过 ， 这 样 还 是 有 问题 。 通 过 方法 搜索 所 得 到 的 函数 对 象 具 是 单纯 的 函数 ， 而 无 法 获得 最 
初 调用 方法 的 表 ( 接收 妖 ) 相关 的 信息 。 于 是 ， 过 程 和 数据 就 发 生 了 分 离 ， 无 法 顺利 实现 面向 
对 象 的 功能 。 








JavaScript 中 ， 这 一 关于 接收 需 的 信息 可 以 通过 this 来 访问 。 此 外 ， 在 Python 中 通过 方法 
调用 的 形式 所 获得 的 并 非 单纯 的 函数 对 象 ， 而 是 一 个 “方法 对 象 " ， 当 调用 这 个 方法 对 象 时 ， 接 
收 顺 会 在 内 部 作为 第 一 参数 附加 在 函数 的 调用 过 程 中 。 
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那么 ，Lua 中 该 怎么 办 呢 ? Lua 准备 了 一 种 支持 方法 调用 的 语法 糖 ( syntax sugar， 指 以 易 
读 和 易 写 为 目的 而 引入 的 语法 形式 )。 在 Lua 中 ， 对 方法 的 调用 ， 不 推荐 使 用 单纯 的 元 素 访问 形 
式 ， 如 : 











ObjR Xe 
而 是 推荐 使 用 这 样 的 形式 : 








OI 

这 就 是 Lua 中 添加 的 语法 糖 ， 它 表示 
OT 0 

的 意思 。 也 就 是 说 ， 通 过 冒号 记 法 调用 的 函数 ， 其 接收 器 会 被 作为 第 一 参数 添加 进来 。 不 过 ， 
表达 式 obj 的 求 值 只 会 进行 一 次 ， 因 此 即便 对 obj 有 副作用 ， 也 只 会 发 生 一 次 。 冒 号 记 法 的 函数 
调用 中 ， 如 果 还 有 其 他 参数 的 话 ， 会 相应 顺 次 向 后 移动 一 个 位 置 。 









































也 就 是 说 ， 在 Python 中 通过 使 用 方法 对 象 来 实现 的 、 将 接收 器 添加 为 第 一 参数 的 函数 调用 ， 
在 Lua 中 是 通过 采用 一 种 特殊 的 调用 形式 来 实现 的 。 这 样 的 设计 不 包含 复杂 的 机 制 ， 能 够 让 人 
感受 到 Lua 的 简单 哲学 。 














这 个 语法 糖 对 方法 定义 也 有 效 ， 在 图 5 的 程序 中 添加 下 面 几 行 : 


function base:y(x) 
print(self,x) 
end 


语法 糖 会 解释 为 下 面 的 代码 : 
base.y = function(self,x) 


print(self) 
end 


从 而 在 base 中 定义 了 一 个 方法 。 























Lua 中 进行 方法 调用 特别 需要 注意 的 一 点 ， 就 是 用 冒号 记 法 定义 的 方法 。 在 调用 的 时 候 也 
必须 使 用 冒号 记 法 来 进行 调用 ， 和 否则 ， 和 self 相当 的 参数 就 不 会 被 添加 进去 ， 参 数 的 顺序 就 会 
错乱 ， 从 而 无 意 中 成 为 产生 错误 的 原因 。 尤 其 是 在 其 他 语言 中 ， 方 法 调用 和 属性 获取 大 多 都 采 
用 相同 的 圆 点 记 法 ， 因 此 很 容易 混淆。 此 外 ,在 Lua 中 ,传递 给 函数 的 参数 个 数 有 差异 时 并 不 
会 出 错 ， 因 此 即便 看 见 错误 信息 也 无 法 马上 发 现 问题 。 我 也 因为 在 这 个 问题 上 中 过 招 而 感到 很 
昔 恼 。 
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通过 刚才 讲解 的 机 制 ， 我 们 了 解 了 进行 面向 对 象 编程 所 必需 的 最 低 限 度 的 功能 。 然 而 ， 说 














实话 ， 仅 有 这 些 功能 还 不 够 好 用 ,为 了 让 它 更 加 接近 其 他 的 语言 ， 我 们 再 来 少许 加 工 一 下 。 

















正如 刚才 讲 过 的 ， 方 法 调用 通过 使 用 语法 糖 就 可 以 毫 无 问题 地 完成 了 。 而 稍 显 不 足 的 部 分 ， 
则 是 对 现 有 对 象 的 扩展 机 制 ,也 就 是 说 ,在 像 Ruby 这 样 基于 类 的 语言 中 ,相当 于 类 和 继承 的 功能 。 




















不 过 ， 考虑 到 Lua 的 对 象 机 制 ， 比 起 基于 类 来 说 ， 还 是 基于 原型 更 加 合适 。 于 是 ， 我 给 大 
家 准备 了 支持 基于 原型 的 面向 对 象 编程 的 一 个 简单 的 库 ( 图 6 )。 这 是 我 自己 编写 的 一 个 工具 ， 
即使 不 详细 了 解 Lua 原始 的 机 制 ， 也 可 以 实现 面向 对 象 。 











--0bject 为 所 有 对 象 的 上 级 
Object = {} 


- -创建 现 有 对 象 副本 的 方法 
function 0bject:clone() 
- -成 为 新 对 象 的 表 
local object = {} 
- -复制 表 元 素 
Formke vn ans se do 
object[k] = v 
end 


-- 设 定 元 表 

-- 虽 然 名 字 叫 C10ne 但 并 不 是 复制 而 是 向 自身 转发 
- -为 了 将 对 类 等 的 修改 反映 出 来 
setmetatable(object, {_ index = self) 


return object 
end 


- -以 菜 个 对 象 为 原型 创建 新 的 对 象 
- -新 对 象 通过 initialize 方 法 进行 初始 化 


转 到 右上 7 


























妈 6 Lua 面向 对 象 用 















































昌 定 为 原型 对 象 的 。 因 此 ， 例 如 编写 一 个 对 














- -允许 类 似 基 于 类 编程 的 用 法 
function Object:new(...) 
- -成 为 新 对 象 的 表 

local object = {} 


-- 找 不 到 的 方法 将 搜索 目标 设 定 为 Se1f 
setmetatable(object, {__index = self}) 


-- 和 Ruby 一 样 ,初始 化 时 调用 initialize 方 法 
--(...) 表 示 将 所 有 参数 原样 传递 
obylec tm Ca ze 


return object 
end 


- -实例 初始 化 函数 

Fume om ect neon 
- -默认 不 进行 任何 操作 

end 


- -为 了 本 来 不 需要 进行 的 类 似 类 的 操作 而 准备 原型 
Class = Object:new() 





本 来 ， 在 基于 原型 的 面向 对 象 编程 中 ， 在 创建 对 象 时 ， 对 于 找 不 到 的 方法 ， 其 转发 目标 是 





图 表 上 的 点 进行 操作 的 程序 的 话 ， 只 要 创建 一 个 具 





有 代表 性 的 点 ， 然 后 根据 需要 ， 通 过 复制 那个 点 来 创建 新 的 点 就 可 以 了 。 




















然而 ， 大 多 数 人 还 是 习惯 基于 类 的 面向 对 象 编程 ， 因 此 实际 上 并 不 会 去 创建 “具有 代表 性 的 
点 ”， 而 大 多 会 创建 一 个 原型 专用 的 对 象 ， 并 像 类 一 样 去 使 用 它 。 这 个 库 也 考虑 到 了 这 一 点 ， 因 
此 单独 提供 了 两 个 方法 ,一 个 是 从 原型 创建 对 象 的 new 方法 , 另 一 个 是 创建 对 象 副本 的 clone 方 法 。 
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clone 方法 会 返回 对 象 的 副本 ， 元 表 则 是 参照 





被 复制 的 对 象 来 进行 设 定 的 。 这 里 我 们 并 没有 


单纯 去 复制 元 表 ， 理 由 是 原始 对 象 如 果 被 修改 ， 则 需要 将 修改 的 部 分 在 副本 对 象 中 反映 出 来 。 
例如 ， 对 相当 于 类 的 对 象 中 添加 了 方法 的 话 ， 我 们 希望 子 类 中 也 拥有 新 添加 的 方法 。 





另 一 方面 ，new 方法 是 从 原型 创建 新 的 对 象 ， 并 通过 initialize 方法 进行 初始 化 。 这 里 调用 





initialize 方法 的 方式 ， 是 参考 了 Ruby 的 设计 。 























这 个 工具 的 使 用 实例 如 图 7 所 示 ， 每 一 行程 序 实 际 的 功能 请 参见 注释 。 











-- 首先 创建 新 的 原型 
-- 创建 表示 “点 ”的 原型 Point 
Point = Class:new() 





-- Point 实 例 初始 化 方法 

-- 设 定 坐 标 X 和 y 

tunctlonponnt na ze x 
Self.x = x 
Self.y = y 

end 


-- 定义 Point 类 的 方法 magnitude 

-- 求 与 原点 之 间 的 距离 

function Point:magnitude() 
euangmathnssqiz use XA Se fy 2 

end 


-- 创建 Point 类 的 实例 
2 二 王 小 
p = Point:new(3,4) 


-- 确认 是 否 设 定 了 成 员 


(Dede es sp 0 0 [0 
(DP eM = Om em 0 A 
-- 计算 magnitude() 

-- 由 勾 股 定理 可 求 得 结果 为 5 
pimpmagni tude Ss 


-- 继承 了 Point 的 Point3D 类 的 定义 
-- 为 了 创建 子 类 要 对 类 进行 clone 操作 
Point3D = Point:clone() 


-- Point3D 对 象 的 初始 化 方法 
-- 由 于 变 成 三 维 空间 因此 增加 了 Zz 轴 上 的 值 





转 到 右上 7 























区 





7 面向 对 象 工具 的 使 用 示例 

















站 UnGionEonmiS De nan (x) 
-- 调用 超 类 的 initialize 进 行 初始 化 
-- 必须 要 指定 一 个 Se1f 有 点 不 美观 
Bomm te nm ta ze sel xy 
-- Point3D 类 的 扩展 部 分 
self.z = 2 
end 


-- Point3D 用 的 magnitude() 方 法 
function Point3D:magnitude() 

return math.sqrt(self.x^2 + self.y^2 + 
Soi ez 2 


end 

-- 创建 Point3D 实 例 

p3 = Point3D:new(1,2,3) 

-- 属性 检查 

(Diino Mo = a [oso el 
Duin DS 
Dem OZ 7 
-- 调用 magnitude 方 法 


pnmbCp Snmagnantudet i 3/4N65/S8067/39 


-- 创建 一 个 p3 的 副本 
p4 = p3:clone() 


-- 属性 检查 

Dem DA = DX 
De GAY A 
DP A A703 


-- 调用 magnitude 方 法 的 结果 相同 
print(p4:magnitude()) --> 
3.7416573867739 
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怎么 样 ? 这 个 库 既 保留 了 基于 原型 的 风格 ， 又 让 习惯 了 基于 类 的 人 也 能 容易 使 用 ， 我 这 有 
点 王 婆 卖 瓜 目 卖 自 夸 的 感觉 呢 。 





信和 Ruby 的 比较 ( 语言 篇 











以 嵌入 为 方针 进行 设计 的 Lua， 在 默认 状态 下 真是 简洁 得 惊人 。 在 标准 状态 下 ， 除 了 基本 
的 数据 类 型 之 外 ， 其 他 一 概 没 有 。 功 能 上 也 就 是 文件 输入 输出 、 字 符 串 模板 匹配 、 表 操作 、 几 
个 数学 函数 , 再 加 上 包 加 载 这 些 而 已 。 和 一 开始 就 提供 了 大 量 功能 的 Ruby 相 比 , 显得 有 些 贫乏 。 











正如 之 前 所 讲 过 的 ，Lua 中 虽然 能 够 进行 面向 对 象 编程 ， 但 用 元 表 来 进行 编程 ， 仿 佛 感觉 
是 把 对 象 剖 开 看 到 五 脏 六 腑 一 样 。 这 和 Perl 早期 的 面向 对 象 编程 感觉 差不多 。 

















话 虽 如 此 ， 我 觉得 ,虽然 感觉 有 些 不 适 , 但 从 实用 角度 来 说 ， 实 现 面 向 对 象 编程 还 是 没有 
问题 的 ， 虽然 提供 的 功能 很 少 , 但 也 并 非 一 无 是 处 。 对 语言 的 基本 功能 上 也 有 一 些 不 满 ， 例 如 
没有 异常 处 理 功能 等 。 不 过 考虑 到 它 是 一 种 应 用 程序 扩展 语言 ， 这 一 点 也 并 非 不 能 妥协 。 

















只 能 说 ， 功 能 和 大 小 是 需要 权衡 的 吧 。 不 过 ，Lua 可 以 通过 C 语言 方便 地 添加 功能 。 默 认 
的 功能 仅仅 是 用 来 表达 逻辑 ， 更 多 的 功能 只 要 根据 峙 入 的 应 用 程序 的 需求 进行 添加 就 可 以 了 。 

















同样 是 以 般 入 为 方针 的 Tcl， 由 于 其 附带 的 GUI 库 Tk 的 完成 度 相当 好 ， 而 且 出 乎 作者 意料 
的 是 ， 更 多 地 不 是 用 于 区 入 应 用 程序 ， 而 是 直接 作为 GUI 语言 来 使 用 。 不 过 Lua 目前 还 是 遵照 
着 最 初 的 目的 ， 以 衣 人 为 主要 的 应 用 领域 。 




















仿 央 入 式 语言 Lua 





Lua 作为 租 入 式 语言 ， 观 察 一 下 它 的 实现 ,会 发 现 最 具 特 点 的 部 分 是 关于 解释 器 的 数据 都 
包括 在 一 个 名 为 lua_State 的 结构 体 中 。 通 过 这 样 的 方式 ， 在 一 个 进程 中 就 可 以 容纳 多 个 解释 器 ， 
例如 为 游戏 的 角色 各 自分 配 一 个 独立 的 解释 锅 ( 只 要 不 在 意 内 存 用 量 的 话 ) 也 是 完全 可 以 做 到 的 。 














此 外 ， 在 多 线程 环境 中 ， 通 过 为 每 个 线程 分 配 解释 器 ， 可 以 最 大 限度 发 挥 多 核 的 性 能 。 




















再 有 ，Lnua 的 垃圾 回收 也 很 有 讲究 。 在 游戏 之 类 对 实时 性 要 求 很 高 的 环境 中 ， 对 不 再 使 用 
的 对 象 进行 回收 的 垃圾 回收 机 制 一 直 是 个 难题 。 例 如 ， 在 射击 游戏 中 ， 如 果 由 于 垃圾 回收 使 玩 
家 有 1 秒 钟 无 法 操作 目 己 的 飞机 ， 那 游戏 就 变 得 没 法 玩 了 。 在 舱 入 环境 中 ,虽然 处 理性 能 非常 
重要 ,但 响应 速度 更 加 重要 。Lua 通过 使 用 增 量 垃圾 回收 的 算法 ， 使 得 程序 的 暂停 时 间 得 到 大 
大 缩短 。 
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以 轻 量 、 高 速 、 响 应 快 为 特色 的 Lua， 被 用 于 杏 入 到 各 种 应 用 程序 中 。 例 如 ， 网 络 游戏 《 魔 
兽 世 界 》( World of Warcraft )、《 仙 境 传说 》( Ragnarok Online )， 以 及 美国 Adobe Systems 公司 开 
发 的 图 像 处 理 软 件 “Adobe Photoshop Lightroom” 等 。 也 许 是 出 于 这 个 原因 ，Adobe 对 Lua 的 开 
发 提供 了 赞助 。 














比较 罕见 的 是 ，Yamaha 的 路 由 避 RTX1200 中 也 各 入 了 Lua。 以 前 ,美国 Cisco Systems 公 
司 的 路 由 器 中 曾经 戏 入 了 Tel， 但 Lua 似乎 成 为 最 近 的 流行 趋势 了 。 








除了 上 述 这 些 以 外 , 欣 入 了 Lua 的 游戏 、Web 服务 需 .工具 软件 等 应 用 程序 ,已然 不 计 其 数 。 
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如 果 从 髋 入 到 应 用 程序 这 一 角度 来 比较 一 下 Ruby 和 Lua 的 话 ， 则 不 能 否认 Ruby 处 在 稍 许 
不 利 的 地 位 。 





Ruby 原本 是 作为 独立 通用 语言 ， 以 追求 功能 和 易 用 性 为 目标 而 设计 的 。 将 其 能 入 到 其 他 应 
用 该 程序 中 ， 虽 说 不 是 不 可 能 ， 但 并 非 十 分 擅长 ， 尤 其 对 于 缺少 用 于 表现 解释 器 的 结构 体 来 说 ， 
是 一 个 很 大 的 缺陷 。 出 于 这 个 原因 ， 在 一 个 进程 中 只 能 容纳 一 个 解释 名。 像 Lua 很 容易 做 到 的 
对 多 个 解释 需 的 协调 和 对 线程 的 分 配 ， 在 Ruby 中 就 非常 困难 。 




















有 一 个 叫做 MVM ( Multiple VM ) 的 补丁 可 以 解决 这 个 问题 ， 不 过 要 将 它 引入 到 标准 实现 
中 还 需要 一 些 时 间 。 


当然 ， 般 入 了 Ruby 的 应 用 程序 也 并 非 一 个 都 没有 。 例 如 Enterbrain 公司 发 售 的 软件 《RPG 
制作 大 师 》? 中 就 府 入 了 一 种 叫做 RGSS (RubyGame Scripting System ) 的 RPG 编程 工具 ， 其 实 
体 就 是 Ruby 1.8。 
































此 外 ， 我 还 听 到 过 一 个 比较 古老 的 报告 ， 就 是 英国 的 酒吧 中 放置 的 “World Cup Trivia” 游 
戏 机 中 ， 也 般 入 了 Ruby。 








语言 的 优 劣 并 不 是 非 黑 即 白 的 。 在 语言 本 屿 的 功能 以 及 易 用 性 方面 Ruby 更 加 优秀 ,我 对 此 
有 足够 的 信心 。 但 如 果 涉及 到 骨 入 到 应 用 程序 中 ，Lua 在 实现 方面 的 实力 更 强 ， 这 一 点 是 不 能 
否认 的 。 















































Q@ RPG 制作 大 师 ( RPG Maker ) 是 由 Enterbrain 公司 发 售 的 一 款 RPG ( 角色 扮演 游戏 ) 制作 工具 。 从 1990 年 开始 ， 
这 个 系列 已 经 在 不 同 的 平台 上 推出 了 数 十 个 版 本 ，RGSS 的 诞生 和 加 入 则 是 从 2004 年 的 “RPG 制作 大 师 XP” 
版 本 开始 的 。 























图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


SUai 


信 详 入 式 Ruby 








不 过 ， 伴 随 计算 机 性 能 的 提升 ， 在 嵌入 式 领 域 中 ，CPU 性 能 和 内 存 容量 等 指标 也 比 以 前 有 
了 大 幅度 的 改善 。 控 制 带 等 组 件 的 性 能 已 经 相当 于 不 久之 前 的 PC， 即便 是 游戏 机 ， 其 性 能 也 已 
经 和 PC 不 相 上 下 了 ， 而 可 以 作为 电脑 来 使 用 的 手机 ， 其 性 能 、 容 量 也 在 不 断 增 加 。 








其 结果 ， 就 是 所 谓 铭 入 式 领 域 中 的 软件 ， 其 复杂 性 也 和 以 前 不 可 同日 而 语 。 如 今 ， 软 件 的 
开发 效率 在 能 入 式 领 域 中 也 成 为 了 一 个 不 可 回避 的 问题 。 因 此 ， 为 了 提高 软件 开发 效率 ， 其 中 
一 个 有 力 的 工具 ， 就 是 采用 高 级 的 编程 语言 。 











为 了 这 个 目的 ， 预 计 能 够 在 谋 和 人 式 领 域 中 大 展 身 手 的 新 Ruby 引擎 开发 项 目 ， 已 经 被 采纳 
为 日 本 经 济 产 业 省 2010 年 度 “ 地 域 创新 研究 开发 事业 ”"。 这 个 项 目的 开发 由 具备 丰富 般 入 式 经 
验 的 各 界 人 士 共同 进行 ， 核 心 部 分 的 开发 工作 由 我 来 完成 。 这 个 轻型 Ruby 基于 MIT 授权 协议 
进行 开源 化 ， 通 过 “mruby” 这 个 名 称 便 可 以 获得 源 代码 ， 请 大 家 访问 https://github.com/mruby/ 


mruby o 



































这 个 轻型 Ruby 并 非 用 来 将 代 现 有 的 Ruby， 而 是 以 租 入 式 领域 为 中 心 ， 对 现在 的 Ruby 
( CRuby ) 所 做 的 补充 。 就 像 耻 uby 是 面向 JVM 平台 对 Ruby 语言 可 能 性 所 做 的 扩展 一 样 ， 新 的 
轻型 Ruby 将 是 面向 戏 和 人 式 领域 ， 对 Ruby 可 能 性 所 做 的 又 一 次 扩展 。 











伴随 着 能 入 式 计算 机 性 能 的 提升 ， 软 件 的 复杂 化 也 逐步 推进 ， 像 Lua 这 样 以 小 规模 的 引擎 
面向 应 用 程序 藤 入 的 语言 ,今后 的 舞台 应 该 会 越 来 越 广阔 。 
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“编程 语言 的 新 潮流 ”后 记 


在 本 章 中 ， 我 们 着 重 介 绍 了 一 些 (在 原稿 写成 的 时 候 ) 比较 新 颖 的 语言 。 世 界 上 到 底 
有 多 少 种 编程 语言 ， 具 体 的 数字 没 人 知道 。 算 上 个 人 兴趣 制作 的 ， 或 者 以 学 者 撰写 论文 的 
一 部 分 而 开发 的 语言 的 话 ， 恶 怕 真 的 是 不 计 其 数 了 吧 。 实 际 上 ， 2 
在 几 年 的 时 间 里 就 开发 了 三 四 种 新 语言 。 我 记得 自己 的 毕业 论文 也 是 和 编程 语言 (不 是 
Ruby ) 的 设计 、 实 现 相关 的 。 


以 这 样 的 背景 所 诞生 的 语言 ， 大 部 分 会 随 着 作者 的 毕业 、 工 作 ， 或 者 随 着 兴趣 的 减弱 
等 各 种 理由 ， 开 发 逐渐 停滞 ， 然 后 慢 慢 消亡 。 在 这 样 “ 无 数 的 尸体 ”中 ， 才 出 现 了 凤 和 毛 鹿 
角 般 的 异类 ， 它 们 变 得 广为人知 ， 并 得 以 长 期 存在 下 去 。 


这 样 诞生 的 语言 ， 在 应 用 的 过 程 中 ， 也 在 不 断 进 化 。 这 几 年 最 具有 开创 性 的 ， 莫 过 于 
V8 和 LuaJIT 的 出 现 。 


V8 是 Google Chrome 浏览 器 中 搭载 的 JavaScript 引擎 ，LuaJIT 是 本 章 中 介绍 过 的 面向 
谈 入 环境 的 脚本 语言 Lua 的 高 速 实现 。 这 两 者 都 是 作为 动态 语言 以 拥有 惊人 的 速度 为 特点 ， 
其 速度 甚至 超越 了 静态 类 型 语言 所 擅长 的 编译 式 引 擎 的 性 能 。 动态 编程 语言 的 实现 者 ( 包 
括 我 在 内 ) 一 直 以 来 都 以 “由 于 没有 编译 时 能 利用 的 类 型 信息 ， 加 上 语言 的 性 质 是 动态 的 ， 
因此 高 速 实现 是 很 困难 ( 约 等 于 不 可 能 ) 的 ”作为 借口 。 而 现实 中 超 高 速 引擎 已 经 出 现 了 ， 
也 就 再 也 谈 不 上 什么 “不 可 能 "了 。 今 后 ,以 此 为 基础 ， 0 实际 上 ， 
各 种 浏览 器 的 JavaScript 性 能 在 这 几 年 间 获 得 了 飞跃 性 的 提高 ， 已 然 进 入 了 一 个 大 竞争 的 
时 代 。 


今后 的 语言 ， 需 要 追求 兼 具 动 态 语 言 的 灵活 性 和 编译 式 语言 的 高 速 性 。 本 章 中 介绍 的 
Dart， 其 诞生 的 背景 就 在 于 此 。 是 像 Dart 这 样 采用 非 强制 性 类 型 信息 ， 还 是 像 某 种 静态 类 
型 语言 一 样 采 用 类 型 推导 ， 这 正 是 语言 进化 方向 中 有 意思 的 地 方 。 


我 在 这 几 年 中 也 酝酿 了 关于 语言 的 一 些 构 思 。 例 如 像 Ruby 一 样 为 动态 语言 ， 但 局 部 
变量 无 法 再 次 赋值 (单一 赋值 )， 提 供 的 数据 结构 基本 上 不 可 改变 (immutable ) 等 。 这 些 
都 是 函数 型 语言 ( 尤其 是 Erlang ) 的 特征 ， 如 果 和 Ruby 这 样 的 面向 对 象 功能 结合 起 来 的 
话 ， 我 想 是 不 是 能 形成 一 种 容易 调试 、 又 容易 发 挥 多 核 性 能 的 语言 呢 ? 由 于 我 自己 忙于 开 
发 Ruby， 没 有 精力 再 着 手 开 发 新 的 语言 ， 各 位 读者 之 中 有 没有 人 想 要 挑战 一 下 呢 ? 
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根据 美国 加 州 大 学 伯克利 分 校 所 做 的 一 项 名 为 “How Much Information2” 的 调查 结 
2002 年 人 类 新 创造 的 数据 总 量 已 超过 5 艾 字 节 (EB )。 其 中 艾 (Exa, 艾 克 萨 ) 是 10 的 18 次 方 ， 
或 者 说 是 2 的 60 次 方 的 前 级 。 这 类 前 级 还 有 很 多 , 按 顺 序 分 别 为 千 ( Kilo ,10 的 3 次 方 )、 兆 ( Mega， 
10 的 6 次 方 )、 吉 (Giga, 10 的 9 次 方 )、 太 (Tera, 10 的 12 次 方 )、 拍 (Peta，10 的 15 次 方 )、 
艾 (Exa，10 的 18 次 方 )。 








此 外 ,根据 这 项 调查 做 出 的 预测 ，2006 年 人 类 的 信息 总 量 可 达到 161EB，2010 年 可 达到 约 
988EB ( 约 等 于 1ZB, Z 为 Zetta， 即 10 的 21 次 方 字 节 )。 这 意味 着 ， 人 类 在 1 年 内 所 产生 并 记 
录 的 数据 量 , 已 经 超过 了 截止 到 20 世纪 末 人 类 所 创造 的 全 部 信息 的 总 量 。 








如 此 大 量 的 信息 被 创造 、 流 通 和 记录 ， 这 被 称 为 信息 爆炸 。 生 活 在 21 世纪 的 我 们 ， 每 天 都 
必须 要 处 理 如 此 庞大 的 信息 量 。 














信息 爆炸 并 不 仅仅 是 社会 整体 所 面临 的 问题 ， 我 们 每 个 人 所 拥有 的 数据 每 天 也 在 不 断 增 加 。 
在 我 最 早 接触 计算 机 的 20 世纪 80 年 代 初 ， 存 储 媒体 一 般 采用 5 英寸 软盘 。 面 对 320KB 的 “大 
容量 ”， 当 时 还 是 初中 生 的 我 兽 经 感叹 到 : 这 些 数据 容量 怒 怕 一 非 子 都 用 不 完 吧 。 





然而 ,在 20 多 年 以 后 ， 我 所 使 用 的 电脑 硬盘 容量 就 已 经 有 160GB 之 多 ， 相 当 于 5 英寸 软 
盘 的 50 万 倍 。 更 为 式 怖 的 是 ， 这 些 容 量 的 8 成 都 已 经 被 各 种 各 样 的 数据 所 填 满 了 。 刚 刚 我 查 了 
一 下 ， 就 光 我 手头 保存 的 电子 邮件 ， 压 缩 之 后 也 足 足 有 3.7GB 之 多 ， 而 这 些 邮 件 每 天 还 在 不 断 
增加 。 





饼 信息 的 尺度 感 








在 物理 学 的 世界 中 ， 随 着 尺度 的 变化 ， 物 体 的 行为 也 会 发 生 很 大 的 变化 。 量 子 力学 所 文 配 
的 原子 等 粒子 世界 中 ， 以 及 像 银河 这 样 的 天 文学 世界 中 ， 都 会 发 生 一 些 在 我 们 身边 绝对 见 不 到 
的 现象 。 

在 粒子 世界 中 ， 茶 个 粒子 的 存在 位 置 无 法 明确 观测 到 ， 而 只 能 用 概率 论 来 描述 。 据 说 ， 这 
是 因为 要 观测 粒子 ， 必 须要 通过 光 ( 也 就 是 光子 这 种 粒子 ) 等 其 他 粒子 的 反射 才能 完成 ， 而 正 
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是 这 种 反射 ， 


就 干扰 了 被 观测 粒子 在 下 一 瞬间 的 位 置 。 














不 仅 如 此 , 在 量子 力学 的 世界 中 , 仿佛 可 以 无 视 质 量 守恒 定律 一 样 , 会 发 生 一 些 神奇 的 现象 ， 
比如 从 一 无 所 有 的 地 方 产生 一 个 粒子 ， 或 者 粒子 以 类 似 瞬 间 移 动 的 方式 穿 过 毫 无 颖 际 的 墙壁 等 ， 
这 真是 超常 识 的 大 汇演 。 








天 文 世界 也 是 一 样 。 两 端 相 距 数 亿 光 年 的 银河 星团 ， 以 及 由 于 引力 太 强 连 光 都 无 法 逃 出 的 
黑洞 ， 这 些 东 西 仅 赁 日常 的 感觉 是 很 难 想象 的 。 








这 些 超 乎 常理 的 现象 的 发 生 , 是 因为 受到 了 一 些 平常 我 们 不 太 留 心 的 数值 的 影响 ,例如 光速 、 
原子 等 粒子 的 大 小 、 时 间 的 尺度 等 ， 它 们 的 影响 是 无 法 忽略 的 。 





在 IT 世界 中 也 发 生 了 同样 的 事情 。 从 小 太 度 上 来 说 ， 电 路 的 精密 化 导致 量子 力学 的 影响 开 
始 显 现 ， 从 而 影响 到 摩尔 定律 ， 从 大 尺度 上 来 说 ， 则 产生 了 信息 爆炸 导致 的 海量 数据 问题 。 














和 人 不 同 ， 计 算 机 不 会 感到 疲劳 和 厌烦 ， 无 论 需 要 多 少时 间 ， 最 终 都 能 够 完成 任务 。 然 而 ， 
如 果 无 法 在 现实 的 时 间 范 围 内 得 出 结果 ， 那 也 是 毫 无 用 处 的 。 当 数据 量变 得 很 大 时 ， 就 会 出 现 
以 前 从 来 没有 考虑 过 的 各 种 问题 ， 对 于 这 些 问 题 的 对 策 必须 要 仔细 考量 。 























下 面 我 们 以 最 容易 理解 的 例子 ， 来 看 一 看 关于 数据 保存 和 查找 的 问题 。 


饼 大 量 数据 的 查找 





所 谓 查 找 ， 就 是 在 数据 中 找 出 满足 
条 件 的 对 象 。 
线性 查找 。 所 谓 线性 查找 其 实 并 不 难 ， 
只 要 逐一 取出 数据 并 检查 其 是 否 满足 条 ”前 
件 就 可 以 了 ， 
确实 夸张 了 一 些 。 














最 简单 的 数据 查找 算法 是 





把 它 叫做 一 种 算法 好 像 也 


O(logn) 

































线性 查找 的 计算 量 为 O00)”,， 也 就 。 0 








法 计算 性 能 的 差别 














是 说 ， 和 查找 对 象 的 数据 量 成 正比 。 在 


算法 的 性 能 中 , 还 有 很 多 属于 O(n)、O(n* log nn) 等 数量 级 的 , 相 比 之 下 O(n) 还 算是 好 的 (图 1 )。 

















Q9 这 里 的 记 法 被 称 为 O 记 法 (或 者 大 O 记 法 ), 指 的 是 计算 量 随 参数 n( 大 多 数 情况 下 为 输入 的 数据 量 ) 的 变化 情况 。 








( 原 书 注 
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4.1 可 扩展 性 


即便 如 此 ， 随 着 数据 量 的 增加 ， 查 找 所 需 的 时 间 也 随 之 不 断 延 长 。 假 设 对 4MB 的 数据 进行 
查找 只 需要 0.5 秒 ， 那 么 对 4GB (=4000MB” ) 的 查找 计算 就 需要 8 分 20 秒 ， 这 个 时 间 已 经 算 
比较 难以 忍受 的 了 。 而 如 果 是 4TB (=4000GB ) 的 数据 ， 单 纯 计算 的 时 间 就 差不多 需要 6 天 。 


像 Google 等 搜索 引擎 所 搜索 的 数据 量 ， 早 已 超过 TB 级 ， 而 达到 了 PB 级 。 因 此 很 明显 ， 
采用 单纯 的 线性 查找 是 无 法 实现 的 。 那 么 ， 对 于 这 样 的 信息 爆炸 ， 到 底 应 该 如 何 应 对 呢 ? 








饼 二 分 法 查找 


从 经 验 上 看 ， 计 算 性 能 方面 的 问题 ， 只 能 用 算法 来 解决 ， 因 为 小 修 小 补 的 变更 只 能 带 来 百 
分 之 几 到 百 分 之 几 十 的 改善 而 已 。 


在 这 里 ， 我 们 来 介绍 一 些 在 一 定 前 提 条 件 下 ， 可 以 极 大 地 改善 查找 计算 量 的 算法 ， 借 此 来 
学 习 应 对 信息 爆炸 在 算法 方面 的 思考 方式 。 


对 于 没有 任何 前 提 条 件 的 查找 ， 线 性 查找 几乎 是 唯一 的 算法 ， 但 实际 上 ， 大 多 数 情况 下 ， 
数据 和 查找 条 件 中 都 存在 着 一 定 的 前 提 。 利 用 这 些 前 提 条 件 ， 有 一 些 算法 就 可 以 让 计算 量 大 幅 
度 减 少 。 首 先 ， 我 们 来 介绍 一 种 基本 的 查找 算法 一 一 二 分 法 查找 (binary search )。 

使 用 二 分 法 查找 的 前 提 条 件 是 ， 数 据 之 间 存 在 大 小 关系 ， 且 已 经 按照 大 小 关系 排序 。 利 用 
这 一 性 质 ， 查 找 的 计算 量 可 以 下 降 到 O(log n)。 


线性 查找 大 多 数 是 从 头 开 始 ， 而 二 分 法 查找 则 是 从 正中 间 开 始 查 找 的 。 首 先 ， 将 要 查找 的 
对 象 数 据 和 正好 位 于 中 点 的 数据 进行 比较 ， 其 结果 有 三 种 可 能 : 两 者 相等 ; 查找 对 象 较 大 ; 查 
找 对 象 较 小 。 


如 果 相 等 则 表示 已 经 找到 ， 查 找 就 结束 了 。 否 则 ， 就 需要 继续 查找 。 但 由 于 前 提 条 件 是 数 
据 已 经 按照 大 小 顺序 进行 了 排序 ， 因 此 如 果 查 找 对 象 数 据 比 中 点 的 数据 大 ， 则 要 找 的 数据 一 定 
位 于 较 大 的 一 半 中 ， 反 之 ， 则 一 定位 于 较 小 的 一 半 中 。 通 过 一 次 比较 就 可 以 将 查找 范围 缩小 至 
原来 的 一 半 ， 这 种 积极 缩小 查找 范围 的 做 法 ， 就 是 缩减 计算 量 的 诀 窃 。 

这 个 算法 用 Ruby 编写 出 来 如 图 2 所 示 。 图 2 中 定义 的 方法 接受 一 个 已 经 排序 的 数组 data， 
和 一 个 数值 value。 如 果 value 在 data 中 存在 的 话 ， 则 返回 其 在 data 中 的 元 素 位 置 索引 ， 如 果 不 
存在 则 返回 nil。 













































































@ 关于 KK、M、G 等 表示 数量 级 的 前 级， 有 1000 倍 递 增 的 十 进 制 和 1024 倍 递增 的 二 进 制 两 种 算法 ， 在 表示 硬盘 
容量 等 场合 (为 了 看 起 来 更 多 ) 一 般 都 采用 十 进 制 ， 因 此 这 篇 文章 中 也 采用 了 十 进 制 。 其 实 ， 如 果 要 明确 表示 
1024 倍 递增 的 二 进 制 方式 , 则 有 另外 的 Ki、Mi、Gi 等 前 级 , 如 “320KiB”, 但 这 种 写法 一 般 不 太 常 见 。( 原 书 注 ) 
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二 分 法 查找 的 计算 量 在 n (= 数 
据 个 数 ) 较 小 时 差异 不 大 ,但 随 着 
n 的 增 大 ， 其 差异 也 变 得 越 来 越 大 。 





表 1 显示 了 随 着 数据 个 数 的 增 
加 , logz 的 增加 趋势 。 当 只 有 10 个 
数据 时 , 和 log n 的 差异 为 4.3 倍 ; 
但 当 有 100 万 个 数据 时 ， 差 异 则 达 
到 了 72000 售 。 





说 句 题 外 话 ， 出 人 意料 的 是 ， 
二 分 法 查找 的 实现 并 非 一 帆 风 顺 。 
例如 ，1986 年 出 版 的 Jon Bentley 所 
著 的 《编程 珠 现 》? (Proegramming 
Pearls ) 一 书 中 ， 就 介绍 了 二 分 法 查 





def bsearch (data, value) 
lo=0 
hi = data.size 
while lo < hi 
mid = (lo + hi)/ 2 # Note: 
Programming Pearl 
if data[mid] < value 
lo= mid + 1; 
else 
me md 
end 
end 
if lo < data.size && data[lo] == value 
lo # found 
else 
nil # not found 
end 
end 


bug in 





图 2 ”二 分 法 查找 程序 











找 的 算法 。 虽 然 其 示例 程序 存在 bug, 但 直到 2006 年 ,包括 作者 自己 在 内 ,竟然 没有 任何 人 注意 到 。 




















表 1 O(n) 和 O(log n) 的 计算 量变 化 
n logn nl/logn( 信 ) 
10 2.302585092994046 4.3429448190325175 
100 4.605170185988092 21.71472409516259 
1000 6.907755278982137 144.76482730108395 
10000 9.210340371976184 1085.7362047581294 
100000 11.512925464970229 8685.889638065037 
1000000 13.815510557964274 72382.41365054197 























这 个 bug 就 位 于 图 2 的 第 5 行 Note 注释 所 在 的 地 方 。. 《编程 珠 现 》 中 原始 的 程序 是 用 C 语 


言 编 写 的 。 在 C 这 样 的 语言 
整数 溢出 〈integer overflow )。 




















，lo 和 hi 之 和 有 可 能 会 超过 正 整数 的 最 大 值 ， 这 样 的 bug 被 称 为 


因此 ， 在 C 语言 中 ， 这 个 部 分 应 该 写成 


mi) = No = CY = oY 2) 


来 防止 溢出 。 在 1986 年 的 计算 机 上 ， 索 引 之 和 超过 整数 最 大 值 的 情况 还 非常 少见 ， 因 此 ， 在 很 
长 一 段 时 间 内 ， 都 没有 人 注意 到 这 个 bug。 




















Q@ 《编程 珠 现 》 第 2 版 中 译本 由 人 民 邮 




















电 出 版 社 于 2008 年 出 版 ， 黄 倩 、 钱 丽 艳 译 。 
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再 说 句 题 外 话 的 题 外 话 ，Ruby 中 是 没有 “整数 的 最 大 值 ”这 个 概念 的 ， 非 常 大 的 整数 会 自 
动 转换 为 多 倍 长 整数 。 因 此 ， 图 2 的 Ruby 程序 中 就 没有 这 样 的 bug。 


尺 散 列表 








从 计算 量 的 角度 来 看 ， 理 想 的 数据 结构 就 是 散 列表 。 散 列表 是 表达 一 个 对 象 到 另 一 个 对 象 
的 映射 的 数据 结构 。Ruby 中 有 一 种 名 为 Hash 的 内 建 数 据 结 构 ， 它 就 是 散 列表 。 从 概念 上 来 看 ， 
由 于 它 是 一 种 采用 非 数 值 型 索引 的 数组 ,因此 也 被 称 为 “联想 数组 ”, 但 在 Ruby 中 ( Perl 也 是 一 样 ) 
从 内 部 实现 上 被 称 为 Hash。 而 相应 地 ，Smalltalk 和 Python 中 相当 于 Hash 的 数据 结构 则 被 称 为 
字典 ( Dictionary )。 











散 列 表 采 用 了 一 种 巧妙 的 查找 方式 ， 其 平均 的 查找 计算 量 与 数据 量 是 无 关 的 。 也 就 是 说 ， 
用 O 记 法 来 表示 的 话 就 是 O(1)。 无 论 数 据 量 如 何 增 大 ,访问 其 中 的 数据 都 只 需要 一 个 固定 的 时 间 ， 
因此 已 经 算是 登峰造极 了 ， 从 理论 上 来 说 。 





























在 散 列表 中 ， 需 要 准备 一 个 “ 散 列 函数 ”"， 用 于 将 各 个 值 计算 成 为 一 个 称 为 散 列 值 的 整数 。 
散 列 函数 需要 满足 以 下 性 质 : 


口 从 数据 到 整数 值 (0 ~ N-1 ) 的 映射 
口 足够 分 散 
口 不 易 冲突 


“足够 分 散 ” 是 指 , 即 便 数据 只 有 很 小 的 差异 , 散 列 函数 的 计算 结果 也 需要 有 很 大 的 差异 。“ 不 
易 冲 突 ” 是 指 ,不 易 发 生 由 不 同 的 数据 得 到 相同 散 列 值 的 情况 。 





当 存 在 这 样 一 个 散 列 函数 
时 ， 最 简单 的 散 列 表 ， 可 以 通过 
以 散 列 值 为 索引 的 数组 来 表现 def hash_set(hashtable, x, y) < 数据 存放 (将 散 列 值 


hashtable = [nil] * N ee 根据 元 素数 量 创建 数组 

















hashtable[hash(x)] = y 作为 索引 存 入 ) 
(图 3 )。 end 
、 def hash_get(hashtable, x) 所 数据 取出 ( 将 散 列 值 
由 于 散 列 值 的 计算 和 指定 hashtable[hash(x)] 作为 索引 取出 ) 
索引 访问 数组 元 素 所 需 的 时 间 都 end 








和 数据 个 数 无 关 , 因此 可 以 得 出 ， ”图 3 最 简单 的 散 列表 
散 列表 的 访问 计算 量 为 0(1)。 


不 过 ， 地 界 上 没有 这 人 么 简单 的 事情 ， 像 图 3 这 样 单纯 的 散 列 表 根 本 就 不 够 实用 。 作 为 实用 
的 散 列表 ， 必 须 能 够 应 对 图 3 的 散 列表 没有 考虑 到 的 两 个 问题 ， 即 散 列 值 冲突 和 数组 溢出 。 
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虽然 散 列 函 数 是 数据 到 散 列 值 的 映射 ， 但 并 不 能 保证 这 个 映射 是 一 对 一 的 关系 ， 因 此 不 同 
的 数据 有 可 能 得 到 相同 的 散 列 值 。 像 这 样 , 不 同 的 数据 拥有 相同 散 列 值 的 情况 , 被 称 为 “冲突 ”。 
作为 实用 的 散 列表 ， 必 须要 能 够 应 对 散 列 值 的 冲突 。 

在 散 列 表 的 实现 中 ， 应 对 冲突 的 方法 大 体 上 可 以 分 为 链 地 址 法 (chaining ) 和 开放 地 址 法 
( open addressing ) 两 种 。 链 地 址 法 是 将 拥有 相同 散 列 值 的 元 素 存放 在 链表 中 ， 因 此 随 着 元 素 个 
数 的 增加 ， 散 列 冲突 和 查询 链表 的 时 间 也 跟着 增加 ， 就 造成 了 性 能 的 损失 。 

不 过 ， 和 后 面 要 讲 到 的 开放 地 址 法 相 比 ， 这 种 方法 的 优点 是 ， 元 素 的 删除 可 以 用 比较 简单 
且 高 性 能 的 方式 来 实现 ， 因 此 Ruby 的 Hash 就 采用 了 这 种 链 地 址 法 。 











另 一 方面 ， 开 放 地 址 法 则 是 在 遇 到 冲突 时 ， 再 继续 寻找 一 个 新 的 数据 存放 空间 (一 般 称 为 
槽 )。 寻 找 空 闲 槽 最 简单 的 方法 ， 就 是 按 顺 序 遍 历 ， 直 到 找到 空闲 槽 为 止 。 但 一 般 来 说 ， 这 样 
的 方法 太 过 简单 了 ， 实 际 上 会 进行 更 复杂 一 些 的 计算 。Python 的 字典 就 是 采用 了 这 种 开放 地 
址 法 。 

开放 地 址 法 中 ， 在 访问 数据 时 ， 如 果 散 列 值 所 代表 的 位 置 〈《 槽 ) 中 不 存在 所 希望 的 数据 ， 
则 要 么 代表 数据 不 存在 ， 要么 代表 由 于 散 列 冲突 而 被 转 存 到 别 的 槽 中 了 。 于 是 ， 可 以 通过 下 列 
算法 来 寻找 目标 槽 : 
(1) 计算 数据 〈key ) 的 散 列 值 
(2) 从 散 列 值 找到 相应 的 槽 ( 如 果 散 列 值 比 槽 的 数量 大 则 取 余 数 ) 
(3) 如 果 槽 与 数据 一 致 ， 则 使 用 该 槽 一 查找 结束 
(4) 如 果 档 为 空间 ， 则 散 列 表 中 不 存在 该 数据 一 查找 结 
(5) 计算 下 一 个 槽 的 位 置 
(6) 返回 第 3 步 进 行 循环 



















































































































































































由 于 开放 地 址 法 在 数据 存放 上 使 用 的 是 相对 普通 的 数组 方式 ， 和 链表 相 比 所 需 的 内 存 空 间 
更 少 ， 因 此 在 性 能 上 存在 有 利 的 一 面 。 











不 过 ,这 种 方法 也 不 是 尽善尽美 的 ， 它 也 有 人 缺点。 首先， 相 比 原本 的 散 列 冲突 发 生 率 来 说 ， 
它 会 让 散 列 冲突 发 生得 更 加 频繁 。 因 为 在 开发 地 址 法 中 ,会 将 有 冲突 的 数据 存放 到 “下 一 个 槽 ” 
中 ， 这 也 就 意味 着 “下 一 个 档 ” 无 法 用 来 存放 原本 和 散 列 值 直接 对 应 的 数据 了 。 


















































当 存 放 数 据 的 数组 被 逐渐 填 满 时 ， 像 这 样 的 槽 冲突 就 会 频繁 发 生 。 一 旦 发 生 模 冲突， 就 必 
须 通过 计算 来 求 得 下 一 个 槽 的 位 置 ， 用 于 覃 查找 的 处 理 时 间 就 会 逐渐 增加 。 因 此 ， 在 开放 地 址 
法 的 设计 中 ， 所 使 用 的 数组 大 小 必须 是 留 有 一 定 余 量 的 。 





























其 次 ， 数 据 的 删除 比较 麻烦 。 由 于 开放 地 址 法 中 ， 一般 的 元 素 和 因 冲 突 而 不 在 原 位 的 元 素 
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是 混在 一 起 的 ， 因 此 无 法 简单 地 删除 某 个 数据 。 要 删除 数据 ， 仅 仅 将 删除 对 象 的 数据 所 在 的 本 
置 为 空闲 是 不 够 的 。 


这 样 一 来 ， 开 放 地 址 法 中 的 连锁 就 可 能 被 切断 ， 从 而 导致 本 来 存在 的 数据 无 法 被 找到 。 因 
此 , 要 删除 数据 , 必须 要 将 存放 该 元 素 的 槽 设 定 为 一 种 特殊 的 状态 , 即 “ 空 闲 〈 允许 存放 新 数据 ) 
但 不 中 断 对 下 一 个 槽 的 计算 ”。 


随 着 散 列表 中 存放 的 数据 越 来 越 多 ， 发 生 冲 突 的 危险 性 也 随 之 增加 。 假 设 真 的 存在 一 种 理 
想 的 散 列 函 数 ， 对 于 任何 数据 都 能 求 出 完全 不 同 的 散 列 值 "， 那 么 当 元 素 个 数 超过 散 列 表 中 槽 的 
个 数 时 ， 就 不 可 避免 地 会 产生 冲突 。 尤 其 是 开放 地 址 法 中 当 覃 快要 被 填 满 时 ， 所 引发 的 冲突 问 
题 更 加 显著 。 

无 论 采 用 哪 种 方法 ， 一 旦 发 生 冲突 ， 就 必须 沿 着 某 种 连锁 来 寻找 数据 ， 因 此 无 法 实现 0(1) 
的 查找 效率 。 


因此 ， 在 实用 的 散 列 表 实 现 中 ， 当 冲突 对 查找 效率 产生 的 不 利 影响 超过 某 一 程度 时 ， 就 会 
对 表 的 大 小 进行 修改 ， 从 而 努力 在 平均 水 平 上 保持 0(1) 的 查找 效率 。 例 如 ， 在 采用 链 地 址 法 的 
Ruby 的 Hash 中 ， 当 冲突 产生 的 链表 最 大 长 度 超过 5 时 ， 就 会 增加 散 列 表 的 槽 数 ， 并 对 散 列 表 
进行 重组 。 男 外 ， 在 采用 开放 地 址 法 的 Python 中 ， 当 三 分 之 二 的 模 被 填 满 时 ， 也 会 进行 重组 。 


即便 在 最 好 的 情况 下 ， 重 组 操作 所 需 的 计算 量 也 至 少 和 元 素 的 个 数 相关 《〈 即 O(n) )， 不 过 ， 
只 要 将 重组 的 频 度 尽量 控制 在 一 个 很 小 的 值 ， 就 可 以 将 散 列 表 的 平均 访问 消耗 水 平 维持 在 0(1)。 



























































散 列表 通过 使 用 散 列 函 数 避 免 了 线性 查找 ， 从 而 使 得 计算 量 大 幅度 减少 ， 真 是 一 种 巧妙 的 
算法 。 


入 布 隆 过 滤器 


下 面 我 们 来 介绍 男 一 种 运用 了 散 列 函数 的 有 趣 的 数据 结构 一 一 布 隆 过 滤器 ( Bloom filter )。 



































布 隆 过 滤 融 是 一 种 可 以 判断 某 个 数据 是 否 存 在 的 数据 结构 ， 或 者 也 可 以 说 是 判断 集合 中 是 
否 包含 某 个 成 员 的 数据 结构 。 布 隆 过 滤器 的 特点 如 下 : 


口 判断 时 间 与 数据 个 数 无 关 ( 0(1)) 
口 空间 效率 非常 好 














7 加 


Q@ 这 样 的 理想 散 列 函 数 被 称 为 完美 散 列 函 数 。 如 及 
书 注 ) 


事先 得 知 数据 的 取 值 范 围 ， 则 构造 完美 散 列 函数 是 可 能 的 。( 原 
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口 无 法 删除 元 素 
口 偶尔 会 出 错 (! ) 


“偶尔 会 出 错 ” 这 一 条 貌似 违背 了 我 们 关于 数据 结构 的 常识 ， 不 过 面 对 大 量 数据 时 ， 我 们 的 
目的 是 缩小 查找 的 范围 ， 因 此 大 多 数 情 况 下 ， 少 量 的 误 判 并 不 会 产生 什么 问题 。 

此 外 ， 布 隆 过 滤器 的 误 判 都 是 假 阳 性 ( false positive )， 也 就 是 说 只 会 将 不 属于 该 集合 的 元 
素 判断 为 属于 该 集合 ， 而 不 会 产生 假 阴 性 ( false negative ) 的 误 判 。 像 布 隆 过 滤器 这 样 “偶尔 会 
出 错 ” 的 算法 ， 被 称 为 概率 算法 ( probabilistic algorithm )。 

布 隆 过 滤器 不 但 拥有 极 高 的 时 间 效 率 ( 0(1) )， 还 拥有 极 高 的 空间 效率 ， 理 论 上 说 ( 假设 误 
判 率 为 1% )， 平 均 每 个 数据 只 需要 9.6 比特 的 空间 。 包 括 散 列表 在 内 ， 其 他 表示 集合 的 数据 结 
构 中 都 需要 包含 原始 数据 ， 相 比 之 下 ， 这 样 的 空间 效率 简直 是 压倒 性 的 。 

布 隆 过 滤 右 使 用 个 散 列 函 数 和 m 比特 的 比特 数组 (bit array )。 作 为 比特 数组 的 初始 值 ， 
所 有 比特 位 都 被 置 为 0。 回 布 降 过 波 需 插入 数据 时 ,会 对 该 数据 求 得 大 个 散 列 值 ( 大 于 0 小 于 mr )， 
并 以 每 个 散 列 值 为 索引 ， 将 对 应 的 比特 数组 中 的 比特 位 全 部 置 为 1。 

要 判断 布 隆 过 滤 右 中 是 否 包含 某 个 数据 ， 则 需求 得 数据 的 个 散 列 值 ， 只 要 其 对 应 的 比特 
位 中 有 任意 一 个 为 0， 则 可 以 判断 集合 中 不 包含 该 数据 。 









































即便 所 有 大 个 比特 都 为 1， 也 可 能 是 由 于 散 列 冲突 导致 的 偶然 现象 而 已 ， 这 种 情况 下 就 产 
生 了 假 阳 性 。 假 阳性 的 发 生 概率 与 集合 中 的 数据 个 数 n、 散 列 函 数 种 类 数 k， 以 及 比特 数组 的 大 
小 m 有 关 。 如 果 m 相对 于 n 太 小 ， 就 会 发 生 比 特 数 组 中 所 有 位 都 为 1， 从 而 将 所 有 数据 都 判定 
为 阳性 的 情况 。 


此 外 ， 当 大 过 大 时 ， 每 个 数据 所 消耗 的 比特 数 也 随 之 增加 ， 比 特 数组 填充 速度 加 快 ， 也 会 
引发 误 判 。 相 反 ， 当 过 小 时 ， 比 特 数组 的 填充 速度 较 慢 ,但 又 会 由 于 散 列 冲突 的 增多 而 导致 
误 判 的 增加 。 


在 信息 爆炸 所 引发 的 大 规模 数据 处 理 中 ， 像 布 隆 过 滤器 这 样 的 算法 ， 应 该 会 变 得 愈 发 重要 。 
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刚才 我 们 介绍 的 二 分 法 查找 、 散 列表 和 布 隆 过 滤器 ， 都 是 为 了 控制 计算 量 ， 从 而 在 现实 的 
时 间 内 完成 大 量 数据 处 理 的 算法 。 


然而 , 仅仅 是 实现 了 这 些 算法 , 还 不 足以 应 对 真正 的 信息 爆炸 , 因为 信息 爆炸 所 产生 的 数据 ， 
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其 规模 之 大 是 不 可 能 由 一 台 计 算 机 来 完成 处 理 的 。 最 近 ， 一 般 能 买 到 的 一 台电 脑 中 所 搭载 的 便 

















盘 容 量 最 大 也 就 是 几 TB ， 内 存 最 大 也 就 是 8GB 左右 吧 。 





最 
在 摩尔 定律 的 恩泽 下 ， 虽 然 这 样 的 容量 已 然 是 今 非 茸 比 ， 但 以 数 TB 的 容量 来 完成 对 PB 级 
别 数据 的 实时 处 理 ， 还 是 完全 不 够 的 。 


那 该 怎么 办 呢 ? 我 们 需要 让 多 台 计 算 机 将 数据 和 计算 分 割 开 来 进行 处 理 。 一 台 计 算 机 无 法 
处 理 的 数据 量 ， 如 果 由 100 台 、1000 台 ， 甚 至 是 1 万 台 计 算 机 进行 合作 ， 就 可 以 在 现实 的 时 间 
内 完成 处 理 。 幸 运 的 是 ， 计 算 机 的 价格 越 来 越 便 宜 ， 将 它们 连接 起 来 的 网 络 带宽 也 越 来 越 大 、 
越 来 越 便 宜 。Google 等 公司 为 了 提供 搜索 服务 ,动用 了 好 几 个 由 数 十 万 台 PC 互相 连接 起 来 所 
构成 的 数据 中 心 。“ 云 ”这 个 词 的 诞生 ， 也 反映 出 这 种 由 多 台 计 算 机 实现 的 分 布 式 计算 ， 重 要 性 
越 来 越 高 。 

然而 ， 在 数 万 台 计 算 机 构成 的 高 度 分 布 式 环境 中 ， 如 何 高 效 进行 大 量 数据 保存 和 处 理 的 技 
术 还 没有 得 到 普及 。 因 为 在 现实 中 ， 能 够 拥有 由 如 此 大 量 的 计算 机 所 构成 的 计算 环境 的 ， 也 只 
有 Google 等 屈指 可 数 的 几 家 大 公司 而 已 。 


假设 真 的 拥有 了 大 量 的 计算 机 ， 也 不 能 完全 解决 问题 。 在 安装 大 量 计算 机 的 大 规模 数据 中 
心中 ， 最 少 每 天 都 会 有 几 台 计算 机 发 生 故 障 。 也 就 是 说 ， 各 种 分 布 式 处 理 中 ， 都 必须 考虑 到 由 
于 计算 机 故障 而 导致 处 理 中 断 的 可 能 性 。 这 是 在 一 台 计 算 机 上 和 运行 的 软件 中 不 太 会 考虑 的 一 个 
要 素 。 其 结果 就 是 , 相 比 不 包含 分 布 式 计算 的 程序 开发 来 说 , 高 度 分 布 式 编程 得 难度 要 高 出 许多 。 





















































QDHT ( 分 布 式 散 列 表 ) 


在 分 布 式 环境 下 工作 的 散 列表 被 称 为 DHT ( Distributed Hash Table， 分 布 式 散 列表 )。DHT 
并 非 指 的 是 一 种 特定 的 算法 ， 而 是 指 将 散 列 表 在 分 布 式 环境 中 进行 实现 的 技术 的 统称 。 实 现 
DHT 的 算法 包括 CAN 、Chord 、Pastry 、Tapestry 等 。 








DHT 的 算法 非常 复杂 ， 这 种 复杂 性 是 有 原因 的 。 在 分 布 式 环境 ， 尤 其 是 P2P "环境 中 实现 
散 列 表 ， 会 遇 到 以 下 问题 : 
口 由 于 机 器 故障 等 原因 导致 节点 消失 


口 节点 的 复原 、 添 加 
口 伴随 上 述 问题 产生 的 数据 位 置 查找 ( 路 由 ) 困难 的 问题 





因此 ， 基 本 上 数据 都 会 以 多 份 副 本 进行 保存 。 此 外 ， 为 了 应 对 节点 的 增 减 ， 需 要 重新 计算 





GD P2P， 是 Peer-to-Peer ( 点 对 点 ) 的 缩写 ， 是 一 种 无 中 央 服 务 器 的 对 等 式 通信 架构 。 
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数据 的 位 置 。 


近年 来 ,运用 DHT 技术 ， 在 分 布 式 环境 下 实现 非 关 系 型 数据 库 的 键 - 值 存储 (key-value 
store 准 据 库 受 到 越 来 越 多 的 关注 。 键 - 值 存储 的 例子 包括 CouchDB TokyoTyrant Kai Roma 等 。 
































简单 来 说 ， 这 些 数据 库 是 通过 网 络 进行 访问 的 Hash， 其 数据 分 别 存 放 在 多 台 计 算 机 中 。 它 
们 都 有 各 自 所 针对 的 数据 规模 、 网 络 架构 和 实现 语言 等 方面 的 特点 。 








关于 分 布 式 环境 下 的 数据 存储 ， 除 了 键 - 值 存 储 以 外 ， 还 有 像 GFS ( Google File System ) 
这 样 的 分 布 式 文件 系统 技术 。GFS 是 后 面 要 讲 到 的 MapReduce 的 基础 。 























GFS 并 不 是 开源 的 ， 只 能 在 Google 公司 内 部 使 用 ,但 其 基本 技术 已 经 以 论文 的 形式 公开 发 
表 ， 基 于 论文 所 提供 的 信息 ， 也 出 现 了 (一般 认为 ) 和 GFS 具备 同等 功能 的 开源 软件 “HFS” 
( Hadoop File System )。 








Roma 
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作为 键 -- 值 存储 数据 库 的 一 个 例子 ， 下 面 介绍 我 参与 开发 的 Roma。Roma ( Rakuten On- 
Memory Architecture ) 是 乐天 技术 研究 所 开发 的 键 - 值 存 储 数据 库 ， 是 在 乐天 公司 内 部 为 满足 灵 
活 的 分 布 式 数据 存储 需求 而 诞生 的 。 其 特点 如 下 : 




















口 所 有 数据 都 存放 在 内 存 中 的 内 存 式 数据 库 ( In-Memory Database，IMDB ) 
口 采用 环 状 的 分 布 式 架构 

口 数据 宛 余 化 : 所 有 数据 除了 其 本 身 之 外 ， 还 各 自 拥有 两 个 副本 

口 运行 中 可 自由 增 减 节点 

口 以 开源 形式 发 布 








Roma 是 由 多 台 计 算 机 构成 的 ， 这 些 节 点 的 配置 形成 了 一 个 虚拟 的 环 状 结构 (图 4)。 这 种 
圆 环 状 的 结构 让 人 联想 到 罗马 竞技 场 ， 这 也 正 是 Roma 这 个 名 字 的 由 来 。 


当 客 户 端 需要 向 Roma 存储 
一 个 键 - 值 对 时 ， 首 先 根据 键 的 
数据 求 出 其 散 列 值 。Roma 中 的 
散 列 值 是 一 个 浮 点 数 ， 在 圆 环 状 
的 结构 中 ， 每 个 节点 都 划 定 了 各 
自 所 负责 的 散 列 值 范围 ， 客 户 端 
根据 散 列 值 找 出 应 该 存放 该 数据 

















散 列 值 4.2 











图 4 Roma 的 架构 
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的 节点 ， 并 向 该 节点 请 求 存储 键 所 对 应 的 值 。 由 于 节点 的 选择 是 通过 散 列 男 数 来 计算 的 ， 因 此 
计算 量 是 固定 的 。 


Roma 中 一 定 会 对 数据 进行 元 余 化 ， 所 以 在 数据 被 写 入 时 ， 该 节点 会 向 其 两 边 相 邻 的 节点 发 
起 数据 副本 请 求 。 因 此 ， 对 于 所 有 的 数据 ， 都 会 在 其 负责 节点 以 及 两 个 相 邻 节点 的 总 共 三 个 六 
点 中 保存 副本 。 


Roma 的 数据 基本 上 是 保存 在 各 个 节点 的 内 存 中 的 ， 但 为 了 避免 数据 丢失 ， 会 在 适当 的 时 机 

以 文件 的 形式 输出 快照 。 万 一 遇 到 Roma 系统 整体 紧急 关闭 的 情况 ， 通 过 快照 和 数据 写 人 日 志 ， 

就 可 以 恢复 所 有 的 数据 。 数 据 的 取出 也 是 同样 通过 计算 散 列 值 找到 相应 的 节点 ， 并 对 该 节点 发 
出 请 求 。 


对 于 像 Roma 这 样 的 分 布 式 键 -- 值 存储 数据 库 来 说 ， 最 大 的 难题 在 于 节点 的 增 减 。 由 大 量 
计算 机 所 构成 的 系统 ， 必 须 时 刻 考 虑 到 发 生 故 障 的 情况 。 此 外 ， 有 时 候 为 了 应 对 数据 量 和 访问 
量 的 急剧 增加 ， 也 会 考虑 在 系统 工作 状态 下 增加 新 节点 。 























在 故障 等 原因 导致 节点 减少 的 情况 下 ， 一 直 保持 联系 的 相 邻 节点 会 注意 到 这 个 变化 ， 并 对 
环 状 结构 进行 重组 。 首 先 ， 消 失 的 节点 所 负责 的 散 列 值 范围 由 两 端 相 邻 的 节点 承担 。 然 后 ， 由 
于 节点 减少 导致 有 些 数 据 的 副本 数 减少 到 两 个 ， 因 此 这 些 数 据 需要 进行 搬运 ， 以 便 保证 副本 数 
为 三 个 。 


增加 节点 的 处 理 方法 是 相同 的 。 市 点 在 圆 环 的 某 个 地 方 被 搬入， 并 被 分 配 新 的 散 列 值 负责 
范围 。 属 于 该 范围 的 数据 会 从 两 端 相 邻 节点 获取 副本 ， 新 的 状态 便 稳 定 下 来 了 。 























假设 ， 由 于 网 络 状况 不 佳 导 致 菜 个 节点 暂时 无 法 访问 时 ， 由 于 数据 无 法 正常 复制 ， 可 能 出 
现 三 个 数据 副本 无 法 保持 一 致 性 的 问题 。 实 际 上 ，Roma 中 的 所 有 数据 都 通过 一 种 时 间 戳 来 记录 
最 后 的 更 新 时 间 。 当 复制 的 数据 之 间 发 生 冲 突 时 ， 其 各 自 的 时 间 改 必然 不 同 ， 这 时 会 以 时 间 戳 
较 新 的 副本 为 准 。 
































Roma 的 优点 在 于 容易 维护 。 只 要 系统 搭建 好 ， 节 点 的 添加 和 删除 是 非常 简单 的 。 根 据 所 需 
容量 增加 新 的 节点 也 十 分 方便 。 


他 MapReduce 


数据 存储 的 问题 ， 通 过 键 - 值 存储 和 分 布 式 文件 系统 ， 在 一 定 程度 上 可 以 得 到 解决 ， 但 是 
在 高 度 分 布 式 环境 中 进行 编程 依然 十 分 困难 。 在 分 布 式 散 列表 中 我 们 也 已 经 接触 到 了 ， 要 解决 
多 个 进程 的 启动 、 相 互 同步 、 并 发 控制 、 机 天 故障 应 对 等 分 布 式 环境 特有 的 课题 ， 程 序 就 会 变 
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得 非常 复杂 。 在 Google 公司 ， 通 过 
MapReduce 这 一 技术 ， 实 现 了 对 分 布 
式 处 理 描述 的 高 效 化 。MapReduce 是 
将 数据 的 处 理 通过 Map ( 数据 的 映射 )、 
Reduce( 映射 后 数据 的 化 简 ) 的 组 合 来 
进行 描述 的 。 





5 是 用 MapReduce 统计 文档 中 
每 个 单词 出 现 次 数 的 程序 ( 概念 )。 实 
际 上 要 驱动 这 样 的 过 程 还 需要 相应 的 中 
间 件 ， 不 过 这 里 并 没有 限定 某 种 特定 的 
中 间 件 。 


根据 图 5 这 样 的 程序 ，MapReduce 
会 进行 如 下 处理 : 




















口 将 文档 传递 给 map 函数 
口 对 每 个 单词 进行 统计 并 将 结果 传递 给 

















理 中 发 生 的 错误 等 异常 





实 了 。 


在 MapReduce 中 ， 当 发 生 错误 时 ， 
自动 进行 “最 佳 应 对 ”， 


document )< 接收 一 个 文档 
并 分 割 | 成 单词 


def map (name, 
# name: document name 
# document: document ee 
for word in document 
EmitIntermediate (word, 1) 
end 
end 


values ) < 对 每 个 单词 进行 统计 
并 返回 合计 数 
amlst oneountseomt ne wonmd 


def reduce(l word, 
# key: a word 
# values: 
result = 0 
for v in values 

Pes t= Ve ton 

end 
Emi Gresul te 

end 








图 5 MapReduce 编写 的 单词 计数 程序 ( 概念 ) 











reduce 函数 


MapReduce 的 程序 是 高 度 抽象 化 的 ， 像 分 配 与 执行 Map 处 理 的 数据 接近 的 最 优 节 点 、 对 处 
常情 况 进行 应 对 等 工作 ， 都 可 以 实现 高 度 的 自动 化 。 对 于 错误 的 应 对 显得 
尤其 重要 ， 在 混 人 坏 数据 的 情况 下 ， 对 象 数据 量 如 果 高 达 数 亿 个 的 话 ， 


一 个 一 个 去 检查 就 不 现 


会 对 该 数据 的 处 理 进行 重 试 ， 如 果 依 然 发 生 错误 的 话 则 
比如 忽略 掉 该 数据 。 


和 GFS 一 样 , MapReduce 也 没有 开源 , 但 基于 Google 发 表 的 论文 等 信息 , 也 出 现 了 Hadoop 
这 样 的 开源 软件 。 在 Google 赞助 的 面向 大 学 生 的 高 度 分 布 式 环境 编程 讲座 中 ， 也 是 使 用 的 





Hadoop。 


依 小 结 











随 着 信息 爆炸 和 计算 机 的 日 用 品 化 ， 


分 布 式 编程 已 经 与 我 们 近 在 总 尺 ， 但 目前 的 软件 架构 


可 以 说 还 不 能 完全 应 对 这 种 格局 的 变化 ， 软 件 层面 依然 需要 进化 。 
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C10K 问 是 
DLL 10K Ia 
Ge 


NN 


RN 


几 年 前 ， 我 去 参加 驾照 更 新 的 讲座 ”， 讲 师 大 卜 三 令 五 申 “ 开 车 不 要 想当然 "。 所 谓 “ 开 车 
想当然 "， 就 是 抱 着 主观 的 想当然 的 心态 去 开车 ， 比 如 总 认为 “那个 路 口 不 会 有 车 出 来 吧 ”“ 那 
个 行人 会 在 车 道 前 面 停 下 来 吧 "之 类 的 。 这 就 是 我 们 在 2-5 节 中 讲 过 的 “正常 化 偏见 ”的 一 个 例子 。 
作为 对 策 ， 我 们 应 该 提倡 这 样 的 开车 方式 ， 即 提醒 自己 “那个 路 口 可 能 会 有 车 出 来 "、“ 行 人 可 
能 会 突然 定 出 来 ”等 。 











在 编程 中 也 会 发 生 完全 相同 的 状况 ， 比 如 “这 个 数据 不 会 超过 16 比特 的 范围 吧 ”、“ 这 个 程 
序 不 会 用 到 公元 2000 年 以 后 吧 ” 等 。 这 种 想法 正 是 导致 10 年 前 千年 虫 问题 的 根源 。 人 类 这 种 
生物 ,仿佛 从 诞生 之 初 就 抱 有 对 自己 有 利 的 主观 看 法 。 即 便 是 现在 ， 世界 上 依然 因为 “想当然 
程 ” 而 不 断 引发 各 种 各 样 的 bug， 包 括 我 自己 在 内 ， 这 真是 让 人 头疼 。 























TS 

















依 何 为 C10K 问题 

















C10K 问题 可 能 也 是 这 种 “想当然 编程 ”的 副产品 。 所 谓 C10K 问题 ， 就 是 Client 10000 
Problem， 即 “在 同时 连接 到 服务 器 的 客户 端 数 量 超过 10000 个 的 环境 中 ， 即 便便 件 性 能 足够 ， 
依然 无 法 正常 提供 服务 ”这 样 一 个 问题 。 

















这 个 问题 的 发 生 ， 有 很 多 背景 ， 主 要 的 背景 如 下 : 








口 由 于 互联 网 的 普及 导致 连接 客户 端 数 量 增加 
口 keep-alive 等 连接 保持 技术 的 普及 








前 者 纯粹 是 因为 互联 网 用 户 数 量 的 增加 ， 导 致 热门 网 站 的 访问 者 增加 ， 也 就 意味 着 连接 数 
上 限 的 增加 。 


更 大 的 问题 在 于 后 者 。 在 使 用 套 接 字 (socket ) 的 网 络 连 接 中 ， 不 能 忽视 第 一 次 建立 连接 所 
需要 的 开销 。 在 HITP 访问 中 ， 如 果 对 一 个 一 个 的 小 数据 传输 请 求 每 次 部 进行 套 接 字 连接 ， 当 























Oz 在 日 本 更 新 驾照 有 效 期 时 ， 必 须 参 加 相应 的 交通 讲座 ， 根 据 驾 驶 者 在 上 一 有 效 期 时 间 段 内 有 无 违反 交通 法 规 等 
情况 ， 讲 座 分 为 不 同 的 类 型 ， 时 间 从 30 分 钟 到 2 小 时 不 等 。 
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访问 数 增 加 时 ， 反 复 连接 所 需要 的 开销 是 相当 大 的 。 

为 了 避免 这 种 浪费 ， 从 HTTP1.1 开始 ， 对 同一 台 服 务 咒 产生 的 多 个 请 求 ， 都 通过 相同 的 套 
接 字 连接 来 完成 ， 这 就 是 keep-alive 技术 。 

近年 来 ， 在 网 络 聊天 室 等 应 用 中 为 了 提高 实时 性 ， 出 现 了 一 种 新 的 技术 ， 即 通过 利用 keep- 
alive 所 保持 的 套 接 字 ， 由 服务 融 向 客户 端 推 送 消息 ， 如 Comet， 这 样 的 技术 往往 需要 很 多 的 并 
发 连接 数 。 


在 Comet 中 ， 客 户 端 先 向 服务 器 发 起 一 个 请 求 ， 并 在 收 到 服务 器 响应 显示 页 面 之 后 ,用 
JavaScript 等 手段 监听 该 套 接 字 上 发 送 过 来 的 数据 。 此 后 , 当 发 生 聊 天 室 中 有 新 消息 之 类 的 “事件 ” 
时 ， 服 务 器 就 会 对 所 有 客户 端 一 起 发 送 啊 应 数据 ( 图 1 )。 


(发 言 7 了 ) 


C wm ) 一 一 EEC 
客户 端 定期 对 服务 器 发 起 轮 询 一 


( 有 新 发 言 吗 ? ) 


发 言 了 
发 言 了 


Co 人 


由 服务 器 通知 客户 端 


抓 取 型 和 


以 往 的 HTTP 聊天 应 用 都 是 用 抓 取 型 方式 来 实现 的 ， 即 以 “用 户 发 言 ” 时“ 按 下 刷新 按钮 ” 
时 或 者 “每 隔 一 定时 间 ” 为 触发 条 件 ， 由 客户 端 向 服务 器 进行 轮 询 。 这 种 方式 的 缺点 是 ， 当 聊 
天 室 中 的 其 他 人 发 言 时 ， 不 会 马上 反映 到 客户 端 上 ， 因 此 缺乏 实时 性 。 





中 





相对 地 ，Comet 以 比较 简单 的 方式 实现 了 高 实时 性 的 推送 型 服务 ， 但 是 它 也 有 缺点 ， 那 就 
是 更 多 的 并 发 连接 对 服务 器 造成 的 负荷 。 用 Comet 来 提供 服务 的 情况 下 ， 会 比 抓 取 型 方式 更 早 
遇 到 C10OK 问题 ， 从 而 导致 服务 缺乏 可 扩展 性 。Comet 可 以 说 是 以 可 扩展 性 为 代价 来 换取 实时 
性 的 一 种 做 法 吧 。 
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4.2 C10K 问题 


人 C10K 问题 所 引发 的 “想当然 ” 





在 安全 领域 有 一 个 “最 弱 连 接 ”"”( Weakest link ) 的 说 法 。 如 果 往 两 端 用 力 拉 一 条 由 很 多 环 
( 连接 ) 组 成 的 锁链 ， 其 中 最 脆弱 的 一 个 连接 会 先 断 掉 。 因 此 ， 锁 链 整 体 的 强度 取决 于 其 中 最 脆 
弱 的 一 环 。 安 全 问题 也 是 一 样 ， 整 体 的 强度 取决 于 其 中 最 脆弱 的 部 分 。 


CIOK 问题 的 情况 也 很 相似 。 由 于 一 台 服 务 器 同时 应 付 超过 一 万 个 并 发 连接 的 情况 ， 以 前 几 
乎 从 未 设想 过 ， 因 此 实际 运作 起 来 就 会 遇 到 很 多 “想当然 编程 ”所 引发 的 结果 。 在 构成 服务 的 
要 素 中 ,哪怕 只 有 一 个 要 素 没有 考虑 到 超过 一 万 个 客户 端的 情况 ,这 个 要 素 就 会 成 为 “最 弱 连 接 ”， 
从 而 导致 问题 的 发 生 。 





下 面 我 们 来 看 看 引发 C10K 问题 的 元 凶 一 一 历史 上 一 些 闭 名 的 “想当然 ” 吧 。 


同时 工作 的 进程 数 不 会 有 那么 多 吧 。 








出 于 历史 原因 ，UNIX 的 进程 ID 是 一 个 带 符 号 的 16 位 整数 。 也 就 是 说 ， 一 台 计 算 机 上 同 
时 存在 的 进程 无 法 超过 32767 个 。 实 际 上 ， 各 种 服务 的 运行 还 需要 创建 一 些 后 台 进程 ， 因 此 应 
用 程序 可 以 创建 的 进程 数量 比 这 个 数字 还 要 小 一 些 。 








不 过 ， 现 在 用 16 位 整数 作为 进程 ID 的 操作 系统 越 来 越 少 了 。 比 如 我 手边 的 Linux 系统 就 
是 用 带 符号 的 32 位 整数 来 作为 进程 ID 的 。 





虽然 由 数据 类 型 所 带 来 的 进程 数 上 限 几 乎 不 存在 了 ， 不 过 允许 无 限 地 创建 进程 也 会 带 来 很 
大 的 危害 2， 因 此 进程 数 的 上 限 是 可 以 在 内 核 参 数 中 进行 设置 的 。 看 一 下 手边 的 Linux 系统 ， 其 
进程 数 上 限 被 设 定 为 48353。 





现代 操作 系统 的 进程 数 上 限 都 是 在 内 核 参数 中 设置 的 ， 但 我 们 会 在 后 面 要 讲 的 内 存 开销 的 
问题 中 提 到 ， 如 果 进 程 数 随 着 并 发 连接 数 等 比例 增加 的 话 ， 是 无 法 处 理 大 量 的 并 发 连接 的 。 这 
时 候 就 需要 像 事件 驱动 模型 (event driven model ) 等 软件 架构 层面 的 优化 了 。 








而 且 ，Linux 等 系统 中 的 进程 数 上 限 ， 实 际 上 也 意味 着 整个 系统 中 运行 的 线程 数 的 上 限 ， 因 
此 为 每 个 并 发 连接 启动 一 个 线程 的 程序 也 存在 同样 的 上 限 。 








内 存 的 容量 足够 用 来 处 理 所 创 建 的 进程 和 线程 的 数量 吧 。 






































@ Weakest link 在 中 文 里 一 般 称 为 “ 短 板 效应 ”"， 即 一 个 由 很 多 块 木板 围城 的 木 桶 能 装 多 少 水 ,取决 于 其 中 最 短 的 
一 块 木板 的 长 度 。 
@ 如 果 人 允许 无 限制 地 创建 进程 的 话 ， 那 些 能 够 不 断 产生 子 进程 的 程序 就 会 带 来 持续 扩大 的 危害 。( 原 书 注 ) 
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进程 和 线程 的 创建 都 需要 消耗 一 定 的 内 存 。 如 果 一 个 程序 为 每 一 个 连接 都 分 配 一 个 进程 或 
者 线程 的 话 ， 对 状态 的 管理 就 可 以 相对 简化 ， 程 序 也 会 比较 易 懂 ,但 问题 则 在 于 内 存 的 开销 。 
虽然 程序 的 空间 等 可 以 通过 操作 系统 的 功能 进行 共享 ， 但 变量 空间 和 栈 空间 是 无 法 共享 的 ， 因 
此 这 部 分 内 存 的 开销 是 无 法 避免 的 。 此 外 ， 每 次 创建 一 个 线程 ， 作 为 栈 空 间 ， 一 般 也 会 产生 
1MB 到 2MB 左右 的 内 存 开销 。 
































当然 ， 操 作 系统 都 具备 虚拟 内 存 功能 ， 即 便 分 配 出 比 计算 机 中 安装 的 内 存 〈 物理 内 存 ) 容 
量 还 要 多 的 空间 ， 也 不 会 立刻 造成 停止 响应 。 然 而 ， 超 出 物理 内 存 的 部 分 ， 是 要 写 人 访问 速度 
只 有 DRAM 干 分 之 一 左右 的 磁盘 上 的 ， 因 此 一 旦 分 配 的 内 存 超过 物理 内 存 的 容量 ， 性 能 就 会 发 
生 难 以 置信 的 明显 下 请 。 























当 大 量 的 进程 导致 内 存 开销 超过 物理 内 存 容量 时 ， 每 次 进行 进程 切换 都 不 得 不 产生 磁盘 访 
问 ， 这 样 一 来 ， 消 耗 的 时 间 太 长 导致 操作 系统 整体 陷入 一 种 几乎 停止 响应 的 状态 ， 这 样 的 情况 
被 称 为 抖动 (thrashing )。 














不 过 ， 计 算 机 中 安装 的 内 存 容 量 也 在 不 断 攀 升 。 几 年 前 在 服务 器 中 配备 2GB 左右 的 内 存 是 
常见 的 做 法 ， 但 现在 ， 一 般 的 服务 器 中 配置 8GB 内 存 也 不 算 罕 见 了 。 随 着 操作 系统 64 位 化 的 
快速 发 展 ， 也 许 在 不 久 的 将 来 ， 为 每 个 并 发 连接 都 分 配 一 个 进程 或 线程 的 简单 模型 ， 也 足够 应 
付 一 万 个 客户 端 了 。 但 到 了 那个 时 候 ， 说 不 定 还 会 产生 如 C1000K 问题 之 类 的 情况 吧 。 





同时 打开 的 文件 描述 符 的 数量 不 会 有 那么 多 吧 。 


所 谓 文件 描述 符 (fille descriptor )， 就 是 用 来 表示 输入 输出 对 象 的 整数 ， 例 如 打开 的 文件 以 
及 网 络 通信 用 的 套 接 字 等 。 文 件 描述 符 的 数量 也 是 有 限制 的 ， 在 Linux 中 默认 状态 下 ， 一 个 进 
程 所 能 打开 的 文件 描述 符 的 最 大 数量 是 1024 个 。 











如 果 程序 的 结构 需要 在 一 个 进程 中 对 很 多 文件 描述 符 进行 操作 ， 就 要 考虑 到 系统 对 于 文件 
描述 符 数 量 的 限制 。 根 据 需 要 ， 必 须 将 设置 改 为 比 默认 的 1024 更 大 的 值 。 




















在 UNIX 系 操 作 系统 中 ， 单 个 进程 的 限制 可 以 通过 setrlimit 系统 调用 进行 设置 。 系 统 全 局 
上 限 也 可 以 设置 ， 但 设置 的 方法 因 操 作 系统 而 异 。 











或 者 我 们 也 可 以 考虑 用 这 样 一 种 方式 ， 将 每 1000 个 并 发 连接 分 配给 一 个 进程 ， 这 样 一 来 
一 万 个 连接 只 要 10 个 进程 就 够 了 ， 即 便 使 用 默认 设置 ， 也 不 会 到 达 文件 描述 符 的 上 限 的 。 











要 对 多 个 文件 描述 符 进 行 监视 ， 用 select 系统 调用 就 足够 了 吧 。 








正如 上 面 所 说 的 ,“ 一 个 连接 对 应 一 个 进程 /线程 ”这 样 的 程序 虽然 很 简单 ， 但 在 内 存 开销 
等 方面 存在 问题 ,于 是 我 们 需要 在 一 个 进程 中 不 使 用 单独 的 线程 来 处 理 多 个 连接 。 在 这 种 情况 下 ， 
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4.2 C10K 问题 





如 果 不 做 任何 检查 就 直接 对 套 接 字 进 行 读 取 的 话 ， 在 等 待 套 接 字 收 到 数据 的 过 程 中 ， 程 序 整体 
的 运行 就 会 被 中 断 。 

用 单线 程 来 处 理 多 个 连接 的 时 候 ， 像 这 种 等 待 输入 时 的 运行 中 断 〈 被 称 为 阻塞 ) 是 致命 的 。 
为 了 避免 阻塞 ， 在 读 取 数 据 前 必须 先 检查 文件 描述 符 中 的 输入 是 否 已 经 到 达 并 可 用 。 


于 是 ,在 UNIX 系 操作 系统 中 ， 对 多 个 文件 描述 符 ， 可 以 使 用 一 个 叫做 select 的 系统 调用 
来 监视 它们 是 否 处 于 可 供 读 写 的 状态 。select 系统 调用 将 要 监视 的 文件 描述 符 存 人 一 个 得 _set 结 
构 体 ， 并 设 定 一 个 超时 时 间 ， 对 它们 的 状态 进行 监视 。 当 指定 的 文件 描述 符 变 为 可 读 、 可 写 、 
发 生 异 常 等 状态 ， 或 者 经 过 指定 的 超时 时 间 时 ， 该 调用 就 会 返回 。 之 后 ， 通 过 检查 亿 _set， 就 可 
以 得 知 在 指定 的 文件 描述 符 之 中 ,发生 了 怎样 的 状态 变化 (图 2 )。 























#define NSOCKS 2 

tS OCINS OGKSI nap ho eS OC kl] S oC KE 中 存 入 要 监视 的 Socket。 
fd_set readfds; maxfd 中 存 入 最 大 的 文件 描述 符 

struct timeval tv; 

ne es 


FD_ZERO(&readfds); < fd_set 初 始 化 

下 oOEIIENSUGKSTEIG 
EDESENGSoOc kL eadbdsns 

} 


tv.tv_sec = 2; < 2 秒 超 时 
Byebvausece 0 


n= Select(maxfd+1，&readfds，NULL，NULL，&tv); < 调用 select, 这 次 只 监视 read。 
关于 返回 值 n: 负数- 出 错 ，0- 超 时 ， 
ET 正 数 -状态 发 生变 化 的 fd 数量 
penmromdNUeDs 
exit(0); 


让 
Tn 0 
puts("timeout"); 
exit(0); 
由 
else { /* 成 功 */ 
hoe 0 < NISIOCIS Si et 
Ui FW LSSENCSe de Rarely 
do_something(sock[i]); 

















区 | 





2 ”select 系统 调用 的 使 用 示例 ( 节选 ) 


然而 ， 如 果 考 虑 到 在 发 生 C10K 问题 这 样 需要 处 理 大量 并 发 连接 的 情况 ， 使 用 select 系统 调 
用 就 会 存在 一 些 问题 。 首 先 ，select 系统 调用 能 够 监视 的 文件 描述 符 数量 是 有 上 限 的 ， 这 个 上 限 
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定义 在 宏 FD_SETSIZE 中 ， 虽 然 因 操作 系统 而 异 ， 但 一 般 是 在 1024 个 左右 。 即 便 通 过 setrlimit 
提高 了 每 个 进程 中 的 文件 描述 符 上 限 ， 也 并 不 意味 着 select 系统 调用 的 限制 能 够 得 到 改善 ， 这 


一 点 特别 需要 注意 。 





NI 


select 系统 调用 的 另 一 个 问题 在 于 ， 在 调用 select 时 ， 作 为 参数 的 fd_set 结构 体会 被 修改 。 
select 系统 调用 通过 fd_set 结构 体 接 收 要 监视 的 文件 描述 符 ， 为 了 标记 出 实际 上 发 生 状 态 变 化 的 
文件 描述 符 ， 会 将 相应 的 得 _set 进行 改写 。 于 是 ， 为 了 通过 fd_set 得 知 到 底 哪些 文件 描述 符 已 
经 处 于 可 用 状态 ， 必 须 每 次 都 将 监视 中 的 文件 描述 符 全 部 检查 一 这 。 





























虽然 单独 每 次 的 开销 都 很 小 ， 但 通过 select 系统 调用 进行 监视 的 操作 非常 频繁 。 当 需要 监 
视 的 文件 描述 符 越 来 越 多 时 ， 这 种 小 开销 累积 起 来 ， 也 会 引发 大 问题 。 


























为 了 避免 这 样 的 问题 ， 在 可 能 会 遇 到 C10K 问题 的 应 用 程序 中 尽量 不 使 用 select 系统 调用 。 
为 此 ， 可 以 使 用 epoll、kqueue 等 其 他 ( 更 好 的 ) 用 于 监视 文件 描述 符 的 API， 或 者 可 以 使 用 非 
阻塞 JJO。 再 或 者 ， 也 可 以 不 去 刻意 避免 使 用 select 系统 调用 ， 而 是 将 一 个 进程 所 处 理 的 连接 数 
控制 在 select 的 上 限 以 下 。 

















依 使 用 epoll 功能 
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很 遗憾 ， 如 果 不 通 过 select 系统 调用 来 实现 对 多 个 文件 描述 符 的 监视 ,那么 各 种 操作 系统 
就 没有 一 个 统一 的 方法 。 例 如 FreeBSD 等 系统 中 有 kqueue，Solariszh 则 是 /dev/poll，Linux 中 
则 是 用 被 称 为 epoll 的 功能 。 把 这 些 功 能 全 都 介绍 一 过 实 在 是 太 难 了 ， 我 们 就 来 看 看 Linux 中 提 
供 的 epoll 这 个 功能 吧 。 


























epoll 功能 是 由 epoll_create 、epoll_ctl 和 epoll wait 这 三 个 系统 调用 构成 的 。 用 法 是 先 通 
过 epoll_create 系统 调用 创建 监视 描述 符 ， 该 描述 符 用 于 代表 要 监视 的 文件 描述 符 ， 然 后 通过 
epoll ctl 将 监视 描述 符 进行 注册 ， 再 通过 epoll_wait 进行 实际 的 监视 。 运 用 epoll 的 程序 节选 如 
图 3 所 示 。 和 select 系统 调用 相 比 ，epoll 的 优点 如 下 : 


















































口 要 监视 的 乌 数量 没有 限制 
口 内 核 会 记忆 要 监视 的 fd， 无 需 每 次 都 进行 初始 化 
口 只 返回 产生 事件 的 fg4 的 信息 ， 因 此 无 需 遍 历 所 有 的 亿 





通过 这 样 的 机 制 ， 使 得 无 谓 的 复制 和 循环 操作 大 幅 减少 ， 从 而 在 应 付 大量 连 接 的 情况 下 ， 
性 能 能 够 得 到 改善 。 








实际 上 ， 和 使 用 select 系统 调用 的 Apache 1.x 相 比 ， 使 用 epoll 和 kqueue 等 新 的 事件 监视 
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4.2 C10K 问题 


API 的 Apache 2.0， 仅 在 这 一 点 上 性 能 就 提升 了 约 20% ~ 30%。 


int epfd; < 首先 创建 用 于 epo11 的 fd，MAX_EVENTS 为 要 监视 的 fd 的 最 大 数量 


if ((epfd = epoll_create(MAX_EVENTS))《 0) { < epol1 用 fd 创建 失败 





exit(1); 
} 


struct epoll_event event; < @) 将 要 监视 的 fd 添加 到 epo11, 根 据 要 监视 的 数量 进行 循环 
ne eXelse 


memset(&event, 0，sizeof(event)); < 初始 化 epo11_event 结 构 体 
ev.events = EPOLLIN; < 对 读 取 进行 监视 
ev.data.fd = sock; 


if (epoll_ctli(epfd, EPOLL CTL ADD, sock,&event)《 0) { < 将 Socket 添 加 到 
epo11。fd 添 加 失败 
exit(1); 
} 





int n，i; <  @ 通 过 epo11_wait 进 行 监视 
struct epoll_event events[MAX_EVENTS]; 


while (1) { 
/* epo11_wait 的 参数 
第 一 个 :epo11 用 的 fd 
第 二 个 :epo11_event 结 构 体 数组 
第 三 个 :epo11_event 数 组 的 大 小 
第 四 个 :timeout 时 间 ( 毫秒 ) 
超时 时 间 为 负数 表示 永远 等 待 */ 
n= epoll wait(epfd, events, MAX_EVENTS, -1); 


0 
exit(1); 
} 
hom 0 
do_something_on_event(events[i]) 
} 
} 
close(epfd); < 用 一 般 的 cl10se 来 关闭 epo11 的 fd 


3 ”epoll_create 的 3 段 示例 程序 


依 使 用 libev 框架 





即便 我 们 都 知道 epoll 和 kqueue 更 加 先进 ， 但 它们 都 只 能 在 Linux 或 BSD 等 特定 平台 上 才 
能 使 用 , 这 一 点 让 人 十 分 苦 售 。 因 为 UNIX 系 平台 的 一 个 好 处 ,就 是 稍稍 用 心 一 点 就 可 以 比较 ) 
容易 地 写 出 具备 跨 平 台 兼容 性 的 程序 。 
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于 是 , 一些 框架 便 出 现 了 , 它们 可 以 将 平台 相关 的 部 分 隐藏 起 来 , 实现 对 文件 描述 符 的 监视 。 
在 这 些 框架 之 中 ， 我 们 来 为 大 家 介绍 一 下 libev 和 EventMachine。 








libev 是 一 个 提供 高 性 能 事件 循环 

















1 /* 首先 包含 《ev.h> */ 
功能 的 库 ， 在 Debian 中 提供 了 libev- 2 #include 《ev.h> 
六 目 : 孟 \ 2 二 
dev 包 。libev 是 通过 在 loop 结构 体 中 内 py 
设 定 一 个 回调 函数 ， 当 发 生 事件 (可 读 5  #include <stdio.h> 
i ek 6 #include <sys/types.h> 
/可 写 ， 或 者 经 过 一 定时 间 ) 时 ， 回 调 7 #include <sys/socket.h> 
函数 就 会 被 调用 。 图 4 展示 了 libev 大 3 ; 
、 , 9 ev_io srvsock watcher; 
概 的 用 法 。 由 于 代码 中 加 了 很 多 注释 ， 10 ev_timer timeout watcher; 
ey 5 让 下 
窑 应 : 5 入 用: 个 
因此 大 家 应 该 不 难 对 libev 的 用 法 有 | 由 WO 读 取 Socket 的 回调 函数 RY 
大 致 的 理解 。 1 3 static void 
14 sock_cb(struct ev_loop *1oop，ev_io 





程序 基本 上 就 是 对 用 于 监视 的 对 3400 






























































WS 
象 watcher 进行 初始 化 ， 然 后 添加 到 事 ”16 J 
, 本 1Z /* 省 略 do_socket_read 的 实现 部 分 */ 
件 循 环 结构 体 (第 66 ~ 72 行 )， 最 后 18 /x* 到 达 EOF 则 返回 EOF x*/ 
调用 事件 循环 (第 75 行 ) 就 可 以 了 。 B99 fdossockeranead(w > td = EO 
并 用 事件 循 . Ty an 20 ev_io_stop(w); /* 停止 监视 */ 
接 下 来 ， 每 次 发 生 事件 时 ， 就 会 自动 调 2 close(w->fd); Wd 
用 watcher 中 设 定 的 回调 函数 (第 12 ~ 和 ] es HV I/ 
52 行 )。 在 服务 器 套 接 字 的 回调 函数 24 1 
(第 27 ~ 42 行 ) 中 ,会 将 已 接受 的 来 26 /* 服务 器 Socket 的 回调 函数 */ 
自 客户 端 连 接 的 套 接 字 添 加 到 事件 循环 27 static void 
28 SV_cb(struct ev_loop *loop, ev_io *w, 
中 去 。 int re 
vents) 
文 个 | 只 A [1 29 { 
在 这 | 例 于 中 涉及 了 输出 输出 30 Streuetesockaddres Gorageab oe 
以 及 超时 事件 ， 实 际 上 libev 能 够 监视 31 ev_io xsock watcher; 
= a 32 ae 
表 1 所 示 的 所 有 这 些 种 类 的 事件 。 33 
. 34 /* 接受 客户 端 SOCket 连 接 */ 
表 1 libev 可 监视 的 事件 一 览 35 s = accept(w->fd, &buf, 
3 sizeof (buf)); 
事 件 名 全 为 36 fOr et 
evV_io 输入 输出 3 
ev_timer 相对 时 间 (n 秒 后 ) 38 WA 开始 监视 客户 端 Socket 大 / 
一 一 39 sock watcher = malloc(sizeof(ev_ 
ev_periodic 绝对 时 间 1 ))e 
ev_stat 文件 属性 的 变化 40 ev_io_init(sock watcher, sock_ cb, s, 
. El EV_READ); 
ev_signal Els 
ev_child 子 进程 的 变化 图 4 libev 的 用 法 
ev_idle 闲置 
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libev 可 以 根据 不 同 的 平台 自动 使 用 
epoll 、kqueue 、/dev/poll 等 事件 监视 API。 如 
果 这 些 API 都 不 可 用 ， 则 会 使 用 select 系统 调 
用 。 使 用 了 libev， 就 可 以 在 监视 并 发 连接 时 
无 需 担 心 移植 性 了 。 

















在 使 用 像 libev 这 样 的 事件 驱动 库 时 ， 必 
须要 注意 回调 函数 不 能 发 生 阻塞 。 由 于 事件 
循环 是 在 单线 程 下 工作 的 ， 因 此 在 回调 函数 
执行 过 程 中 ， 是 无 法 对 别 的 事件 进行 处 理 的 。 
不 仅 是 libev， 在 所 有 事件 驱动 架构 的 程序 中 ， 
都 必须 尽快 结束 回调 的 处 理 。 如 果 一 项 工作 
需要 花费 很 多 时 间 ， 则 可 以 将 其 转发 给 其 他 
进程 /线程 来 完成 。 














使 用 EventMachine 








刚刚 我 们 做 了 很 多 底层 编程 的 工作 ， 例 
题 也 是 用 C 语言 来 写 的 。 不 过 ,仔细 想 想 的 话 ， 
正如 一 开始 所 讲 过 的 那样 ，C10K 问题 的 本 质 
其 实 是 “明明 硬件 性 能 足够 ,但 因 来 自 客户 
端的 并 发 连接 过 多 导致 处 理 产 生 破 绽 "”。 既 然 
我 们 完全 可 以 不 那么 在 意 CPU 的 性 能 ， 那 是 
不 是 用 Ruby 也 能 够 应 对 C10K 问题 呢 ? 




















答案 是 肯定 的 。 实 际 上 ， 用 Ruby 开发 能 
应 付 大 量 并 发 连接 的 程序 并 不 难 ， 支 持 这 一 功 
能 的 框架 也 已 经 有 了 。 下 面 我 们 来 介绍 一 种 
Ruby 中 应 对 C10K 问题 的 事件 驱动 框架 
EventMachine。 用 Ruby 的 软件 包 管 理 系 统 
RubyGems 就 可 以 很 轻松 地 完成 EventMachine 
的 安装 : 

















$ sudo gem install eventmachine 














4 


4.2 C10K 问题 


evalnomsGar eloop socka 
watcher); 


J 


/* 超时 的 回调 函数 */ 
/* 事件 循环 60 秒 后 调用 */ 
swalecavond 
timeout_cb(struct ev_loop *1oop， 
ev_timer *w, int revents ) 
{ 
puts("timeout"); 
/* 结束 所 有 的 事件 循环 */ 
ev_unloop(1loop, EVUNLOOP_ALL); 
} 


me 
main(void) 
/* 获取 事件 循环 结构 体 */ 
/* 一 般 用 default 就 可 以 了 */ 
sbructeev loop “oop eve 
default_loop(0); 


/* 服务 器 socket 的 获取 处 理 */ 

/* 篇 幅 所 限 ,省 略 get_server_ 
Socket 的 实现 部 分 */ 

/* Socket，bind， 执 行 Socket、 
bind、1isten 等 */ 

int s = get_ server_ socket(); 


/* 开始 监视 服务 器 Socket */ 

ev_io init(&srvsock watcher, 
SVCDREESR 和 EMV 
READDE 

ev_io start(loop, &srvsock_ 
watcher); 


/* 设置 超时 时 间 ( 60 秒 ) */ 

ev_timer_init(&timeout_ 
watcher, timeout cb, 60.0, 0.0); 

ev_timer_start(loop, &timeout 
watcher); 


/* 事件 循环 体 */ 
ev_loop(loop, 0); 


/* un1oop 被 调用 时 结束 事件 循环 */ 
return 0; 


} 

















libev 的 用 法 ( 续 ) 








叫 表 示 换 行 
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我 们 用 EventMachine 来 实现 
了 一 个 Echo (回声 ) 服务 器 ， 它 
的 功能 就 是 将 写 入 socket 的 数据 原 
原本 本 返回 来 ， 程 序 如 图 5 所 示 。 
图 4 中 运用 libev 编写 的 程序 足 足 
有 80 行 ， 这 还 是 在 省 略 了 本 质 的 
处 理 部 分 的 情况 下 ， 而 图 5 的 程序 














require "eventmachine'" 


module EchoServer 
def post_init 
puts "-- someone connected to the echo 
erver!™" 
end 


def receive data data 
send_ data data 










































































Ee a 10 close_connection if data = /quit/i 
完整 版 也 只 需要 20 行 。 由 此 大 家 ol end 
也 可 以 感受 到 Ruby 颇 高 的 表达 能 。 2 
3 def unbind 
力 了 吧 。 14 puts "-- someone disconnected from the echo 
sermnvenm 
在 EventMachine 中 ， 回 调 是 入 Re d 
以 Ruby 模块 的 形式 进行 定义 的 。 17 
i 18 EventMachine::run { 
在 图 5 的 例子 中 ，EchoServer 模块 19 EventMachine::start_server "127.0.0.1", 8081, 
扮演 了 这 个 角色 。 这 个 模块 中 重 写 ee 
0 
了 几 个 方法 ， 从 而 实现 了 回调 ， 也 
全 jt 图 i ine 编写 的 务 昌 
就 是 一 种 Template Method 设计 模 5 运用 EventMachine 编写 的 Echo 服务 器 
式 吧 。 实 现 回调 的 方法 如 表 2 所 示 。 
表 2 ”EventMachine 的 回调 方法 
方 法 名 调用 条 件 目 的 
post_init socket 连 接 后 初始 化 连接 
receive_data(data) 数据 接收 后 读 取 数据 
unbind 连接 终止 后 终止 处 理 
connection completed 连接 完成 时 初始 化 客户 端 连 接 
ssl handshake completed SSL 连 接 时 SSL 
ssl_verify peer SSL 连 接 时 SSL 节点 验证 
proxy_target_ unbound proxy 关 闭 时 转发 目标 











同样 是 事件 驱动 框架 ,但 libev 和 EventMachine 在 功能 上 却 有 很 大 的 不 同 。 


语言 的 库 ， 虽然 程序 可 能 会 变 得 很 繁琐 ， 





libev 的 目的 只 是 提供 最 基本 的 事件 监视 功能 ， 而 在 套 接 字 连接 、 内 存 管 理 等 方面 还 需要 用 
户 自己 来 操心 。 同 时 ， 它 能 够 支持 定时 器 、 信 号、 子 进程 状态 变化 等 各 种 事件 。libev 是 用 于 C 








另 一 方面 ，EventMachine 提供 了 多 并 发 网 络 连接 处 到 








但 却 拥有 可 以 应 付 各 种 状况 的 灵活 性 。 








方面 的 丰富 功能 。 从 图 5 的 程序 








P 应 


该 也 可 以 看 出 ， 由 于 它 对 套 接 字 连 接 、 数 据 读 取 都 提供 了 相应 的 支持 ， 因 此 在 网 络 编程 方面 可 
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以 节约 大 量 的 代码 ， 但 相对 来 说 ， 它 所 文 持 的 事件 种 类 只 有 输入 输出 和 定时 器 。 


作为 C 语 言 的 库 , libev 的 功能 专注 于 对 事件 的 监视 :而 作为 面向 Ruby 的 框架 ， 
EventMachine 则 支持 包括 服务 器 、 客 户 端的 网 络 连 接 和 输入 输出 ， 甚 至 是 SSL 加 密 。 这 也 许 也 
反映 了 两 种 编程 语言 性 格 之 间 的 差异 吧 。 











其 实 ， 关 于 libev 和 EventMachine 是 否 真 的 能 够 处 理 大 量 并 发 连接 ， 最 好 是 做 个 性 能 测试 ， 
但 以 我 手 上 简陋 的 环境 来 说 ， 臣 怕 无 法 尝试 一 万 个 客户 端的 连接 ， 也 不 可 能 为 了 这 个 实验 准备 
一 万 台 笔记 本 电脑 吧 。 而 且 ， 要 进行 可 扩展 性 的 实验 ， 还 是 需要 准备 一 个 专门 的 网 络 环境 才 行 。 
不 过 话说 回来 ，libev 和 EventMachine 都 已 经 在 各 种 服务 中 拥有 一 些 应 用 实例 ， 应 该 不 会 存在 非 
常 极端 的 性 能 上 的 问题 吧 ?。 





























依 小 结 
在 libev、EventMachine 等 事件 驱动 框架 中 ， 如 何 尽量 缩短 回调 的 执行 时 间 是 非常 重要 的 ， 
因为 在 回调 中 如 果 发 后 输入 输出 等 待 (阻塞 )， 在 大 量 并 发 连接 的 情况 下 是 致命 的 。 于 是 ， 在 输 
入 输出 上 如 何 避 免 阻 塞 〈 非 阻塞 IO ) 就 显得 愈 发 重要 。 




















GD 也 有 人 对 EventMachine 的 性 能 和 功能 表示 不 满 , 于 是 又 开发 出 了 一 个 新 的 异步 IO 库 一 一 Celluloid.io。( 原 书 注 ) 
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Zp SERIES 
4 3 HashFold 


BY 


SS 
SS 


在 4-1 中 ， 我 们 介绍 了 大 量 信息 被 创造 和 记录 所 引发 的 “信息 爆炸 ”， 以 及 为 应 付 信息 爆炸 
而 将 处 理 分 布 到 多 台 计 算 机 中 进行 的 方法 。 对 于 运用 多 台 计 算 机 构成 的 高 度 分 布 式 处 理 环 境 中 
的 编程 模型 ， 我 们 介绍 了 美国 Google 公司 提出 的 MapReduce。 下 面 我 们 要 介绍 的 HashFold 正 
是 它 的 一 种 变 体 ，Steve Krenzel 在 其 网 站 中 (http://stevekrenzel.com/improving-mapreduce-with- 
hashfold ) 也 对 此 做 了 介绍 。 























MapReduce 通过 分 解 、 提 取 数 据 流 的 Map 函数 和 化 简 、 计 算数 据 的 Reduce 函数 ， 对 处 理 
进行 分 制 ， 从 而 实现 了 对 大 量 数据 的 高 效 分 布 式 处 理 。 





相对 地 ，HashFold 的 功能 是 以 散 列 表 的 方式 接收 Map 后 的 数据 ， 然 后 通过 Fold 过 程 来 实 
现 对 散 列 表 元 素 的 去 重复 。 这 种 模型 将 MapReduce 中 一 些 没 有 细 化 的 部 分 ， 如 Map 后 的 数据 如 
何 排序 再 进行 Reduce 等 ， 通 过 散 列 表 这 一 数据 结构 的 性 质 做 了 清晰 的 描述 ， 因 此 我 个 人 很 喜欢 
HashFold。 不 过 ， 虽 然 我 对 HashFold 表示 支持 ， 但 慌 怕 它 要 成 为 主流 还 是 很 困难 的 。 





























即便 无 法 成 为 主流 ， 对 于 大 规模 数据 处 理 中 分 布 式 处 理 的 实现 ，HashFold 简洁 的 结构 应 该 
也 可 以 成 为 一 个 不 错 的 实例 。 








约 1 | 六 
HashFold 的 Map 过 程 在 接收 def map(document) < 接收 文档 并 分 解 为 单词 
原始 数据 之 后 ， 将 数据 生成 key、 # document: document contents 


for word in document 








value 对 。 然 后 ，Fold 过 程 接收 两 个 和 后 

value， 并 返回 一 个 新 的 value。 图 1 人 word, 1 
. ee Ee em 

所 示 的 就 是 一 个 运用 HashFold 的 单 end 

词 计数 程序 。 


def fold(count1，count2) < 对 单词 进行 统计 
ee 、 # countl, count2: two counts for a word 
单词 计数 是 MapReduce 主要 的 return countl + count2 


应 用 实例 ， 这 个 说 法 已 经 是 老生 常 end 
谈 了 ,每 次 提 到 MapReduce 的 话题 ， 到 1 用 HashFold 编写 的 单词 计数 程序 ( 概念 ) 























就 会 把 它 当成 例题 来 用 。 而 HashFold 则 是 单词 计数 的 最 佳 计 算 模 型 ， 当 然 ， 它 也 可 以 用 来 进行 
其 他 的 计算 。 
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下 面 我 们 按照 图 1 的 概念 , 来 实现 一 个 简单 的 HashFold 库 。 因 为 如 果 不 实际 实现 一 下 的 话 ， 

















我 们 就 无 法 判断 这 种 模型 是 


不 





Ls 
HH 


4 有 广泛 的 适应 性 。 





为 了 进行 设计 ， 我 们 需要 思考 满足 HashFold 性 质 的 条 件 ， 于 是 便 得 出 了 以 下 结论 。 


首先 ， 由 于 在 Ruby 中 无 法 通过 网 络 发 送 过 程 ， 因 此 HashFold 的 主体 不 应 是 函数 ( 过程 )， 
而 应 该 是 对 象 。 如 果 是 对 象 的 话 ， 只 要 通过 某 些 手段 事先 共享 类 定义 ,我 们 就 可 以 用 Ruby 中 内 
建 的 Marshal 功能 通过 网 络 来 传输 对 象 了 。 


我 们 希望 这 个 对 象 
最 好 是 HashFold 类 的 子 
类 。 这 样 一 来 ，HashFold 
类 所 拥有 的 功能 就 可 以 被 
继承 下 来 ， 从 而 可 以 使 用 
Template Method 模式 来 提 
供 每 个 单独 的 Map 和 Fold 
(图 2) 



































唔 ， 貌 似 挺 好 用 的 。 
下 面 就 我 们 来 制作 一 个 满 
足 上 述 设计 的 HashFold 库 。 























class WordCount < HashFold 
def map(document) < 分割 单词 
for word in document 
yield word, 1 
end 
end 


def fold(countl1，count2) < 重复 的 单词 进行 合并 


计算 
metuenmeoumm eouWunke 
end 
end 
h = WordCount.new.start(documents) < 得 到 结果 Hash( 单词 => 


单词 出 现 数 ) 








赂 2 HashFold 库 API ( 概念 ) 











仿 HashFold 库 的 实现 ( Level 1 ) 








好 ， 我 们 已 经 完成 了 API 的 设计 ， 现 在 我 们 来 实际 进行 HashFold 库 的 实现 吧 。 首 先 ， 我 们 
先 不 考虑 分 布 式 环境 ， 而 是 先 从 初级 版 本 开始 做 起 。 

















要 实现 一 个 最 单纯 级 别 的 HashFold 是 很 容易 的 。 只 要 接收 输入 的 数据 ， 并 对 其 执行 Map 
过 程 ， 如 果 出 现 重 复 则 通过 Fold 过 程 来 解决 。 实 际 的 程序 如 图 3 所 示 。 








在 不 考虑 分 布 式 环境 的 情况 下 ，HashFold 的 实现 其 实 相 当 容 易 ， 这 也 反映 了 HashFold“ 易 


于 理解 ”这 一 特性 。 























不 过 ， 不 实际 运行 一 下 ， 就 不 知道 它 是 不 是 真 的 能 用 呢 。 于 是 我 们 准备 了 一 个 例题 程序 。 





图 4 就 是 为 HashFold 库 准 备 的 例题 程序 , 它 可 以 看 成 是 对 图 2 中 的 概念 进行 具体 化 的 结 
这 是 一 个 依照 MapReduce 的 传统 方式 ， 对 单词 进行 计数 的 程序 。 今 后 我 们 会 对 HashFold 库 进 
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行 升级 ,但 其 API 是 不 变 的 ， 因 此 单词 计数 程序 也 不 需要 进行 改动 。 


class HashFold 
def start(inputs) 
hash = {} < 保 奇 结果 用 的 Hash 
inputs.each do |input| < 对 传递 给 start 的 各 输入 数据 调用 map 方 法 
self.map(input) do |k,v| 
if hash.key?(k) < 在 代码 块 中 传递 的 key 和 Value 如 果 出 现 重 复 则 调用 fo1d 方 法 
hash[k] = self.fold(hash[k], v) 

















else 
hash[k] = v < 如 果 尚 未 存在 则 存放 到 Hash 中 
end 
end 
end 
hash < 返回 结果 Hash 
end 
end 
图 3 HashFold 库 ( Level 1 ) 
class WordCount < HashFold 不 需要 进行 计数 的 高 频 英文 单词 
STOP_WORDS = %w(a an and are as be for if in is it of or the to with) < 将 输入 的 
参数 作为 
文件 名 
def map(document) 
open(document) do |f| < 对 文件 各 行 执 行 操作 
for line in f < 将 所 有 标点 符号 视 为 分 害 符 ( 替换 成 空格 ) 
NiendIs uD LAS 0 />RONEOO NN 的 
分 割 为 单词 
for word in 1ine.split < 将 字母 都 统一 转换 为 小 写 
word.downcase! < 高 频 单词 不 计数 
next if STOP_WORDS.include?(word) < Key= 单 词 ,计数 =1 ,传递 给 代码 块 
yield word.strip,，1 < 人 久 决 直 复 
end 
end 
end 
end 
def fold(countl1，count2) < ”对 单词 计数 进行 简单 累加 
return countl + count2 < 命令 行 参数 用 于 指定 要 统计 单词 的 文件 .随后 按照 计数 将 单词 倒序 排列 
(从 大 到 小 ), 并 输出 排 在 前 20 位 的 单词 。 
end 
end 


WordCount.new.start(ARGV).sort_by{|x|x[1]}.reverse.take(20).each do |k,v| 


[on ee Nn 
end 


4 ”单词 计数 程序 











区 
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将 图 3 的 库 和 图 4 的 程序 结合 起 来 ， 就 完成 了 一 个 最 简单 的 HashFold 程序 。 我 们 暂且 将 这 
个 程序 保存 在 “hfl.rb” 这 个 文件 中 。 














那么 ， 我 们 来 运行 一 下 看 看 。 首 先 将 Ruby 代 人 
码 仓库 中 的 “Ruby trunk” 分 支 下 的 ChangeLog ( 变 ruby: 11960 





更 履历 ) 作为 单词 计数 的 对 象 。 运 行 结果 如 图 5 [10232 
所 不 。 1 
从 这 个 结果 中 ,我 们 可 以 发 现 很 多 有 趣 的 内 19373990 
容 。 比 如 ，ruby 这 个 单词 出 现 次 数 最 多 ， 这 是 理 1 
所 当然 的 ， 而 出 现 次 数 最 多 的 名 字 ( 提交 者 ) 是 ditto: 2669 
nobuyoshi nakada (2313 次 )， 远 远 超 出 位 于 第 二 et 2334 


名 的 我 ( 1648 次 )。 原 来 我 已 经 被 超越 那么 多 了 呀 。 nakada: 2313 
nobuyoshi: 2313 


除 此 之 外 ,我们 还 能 看 出 提交 发 生 最 多 的 日 。 1 本 人 
子 是 星期 二 。 如 果 查 看 一 下 20 位 之 后 的 结果 ， 就 matz: 1659 
可 以 看 出 一 周 中 每 天 提交 次 数 的 排名 : 最 多 的 是 tne, 1648 
星期 二 ( 1639 次 ), 然后 依次 是 星期 四 ( 1584 次 )、 Lue 0 
星期 一 (1503 次 ) 星 期 五 ( 1481 次 )\ 星 期 三 (1477 ”图 5 单词 计数 的 运行 结果 
次 )、 星 期 六 (1234 次 ) 和 星期 日 (1012 次 )。 果 然 周 末 的 提交 比较 少 呢 ， 但 次 数 最 多 的 居然 是 


星期 二 ， 这 个 倒是 我 没有 想到 的 。 







































































不 过 ， 光 统计 一 个 文件 中 的 单词 还 不 是 很 有 意思 ， 我 们 来 将 多 个 文件 作为 计数 对 象 吧 ， 比 
如 将 ChangeLog 以 及 其 他 位 于 Ruby trunk 分 文中 所 有 的 “.c” 文 件 作 为 对 象 。 我 算 了 一 下 ， 要 
统计 的 文件 数量 为 292 个 ， 大 小 约 6MB， 正 好 我 们 也 可 以 来 统计 一 下 运行 时 间 (图 6)。 这 里 我 
们 的 运行 环境 是 Ruby 1.8.7，Patch Level 174。 





% time ruby hfl.rb ChangeLog **/*x.c 器 

Bball 

OEE 

3/84 

pulbys e205 

(中 咯 ) 

ruby hf0.rb ChangeLog **/*.c 37.89s user 3.89s System 98% cpu 
la el Laon ee 








四 


6 ”以 多 个 文件 为 对 象 的 运行 结果 ( 附带 运行 时 间 ) 


我 用 的 shell 是 “zsh”， 它 可 以 通过 “**/*.c” 来 指定 当前 目录 下 (包括 子 目录 下 ) 所 有 的 .c 
文件 。 这 个 功能 非常 方便 ， 甚 至 可 以 说 我 就 是 为 了 这 个 功能 才 用 zsh 的 吧 。 
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在 命令 行 最 前 面 加 上 time 就 可 以 测 出 运行 时 间 。time 是 shell 的 内 部 命令 ， 因 此 每 种 shell 
偷 出 的 格式 都 不 同 ， 大 体 上 总 会 包含 以 下 3 种 信息 。 








口 user: 程序 本 身 所 消耗 的 时 间 

D system: 由 于 系统 调用 在 操作 系统 内 核 中 所 消耗 的 时 间 

口 total: 从 程序 启动 到 结束 所 消耗 的 时 间 。 由 于 系统 中 还 运行 着 其 他 进程 ， 因 此 这 个 时 间 
要 大 于 user 与 system 之 和 








从 这 样 的 运算 量 来 看 ， 用 时 42 秒 还 算 不 不 。 不 过 ，6MB 的 数据 量 ， 即 便 不 进行 什么 优化 ， 
用 简单 的 程序 来 完成 也 没有 多 大 问题 。 











作为 参考 ， 我 用 Ruby 1.9 也 测试 了 一 下 ， 所 用 的 是 写 稿 时 最 新 的 trunk, ruby1.9.2dev 
( 2009-08-08trunk 24443 )。 








运行 结果 为 user 18.61 秒 、system 0.14 秒 、total 18.788 秒 ， 也 就 是 说 ， 和 Ruby 1.8.7 的 
42.528 秒 相 比 ， 速 度 达到 了 两 倍 以 上 (2.26 倍 )。 看 来 Ruby 1.9 中 所 搭载 的 虚拟 机 “YARV (Yet 
Another Ruby VM )” 的 性 能 不 可 小 舰 呢 。 


从 此 之 后 ， 我 们 基本 上 都 使 用 1.9 版 本 来 进行 测试 ， 主 要 是 因为 我 平常 最 常用 的 就 是 Ruby 
1.9。 此 外 ， 由 于 性 能 测试 要 跑 很 多 次 ， 如 果 等 待 时 间 能 缩短 的 话 可 是 能 大 大 提高 ( 写 稿 的 ) 生 
产 效率 的 。 
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如 果 程 序 运 行 速度 变 快 ， 怒 怕 没 人 会 有 意见 。 相 反 ， 无论 你 编写 的 程序 运行 速度 有 多 快 ， 
总 会 有 人 抱怨 说 “还 不 够 快 啊 "。 这 种 情况 的 出 现 几 乎 是 必然 的 , 就 跟 太 阳 每 天 都 会 升 起 来 一 样 。 


问题 不 仅仅 如 此 。 虽 然 CPU 的 速度 根据 摩尔 定律 而 变 得 越 来 越 快 ， 但 也 马上 就 要 遇 到 物理 
定律 的 极限 ，CPU 性 能 的 提升 不 会 像 之 前 那样 一 帆 风 顺 了 。 这 几 年 来 ，CPU 时 钟 频率 的 提升 已 
经 遇 到 了 瓶 宏 ，Itel 公司 推出 的 像 Atom 这 样 低频 率 、 低 能 耗 的 CPU 的 成 功 ， 以 及 让 普通 电脑 
也 能 拥有 多 个 CPU 的 多 核 处 理 需 的 普及 ， 这 些 都 是 逐步 接近 物理 极限 所 带 来 的 影响 。 

此 外 ， 还 有 信息 爆炸 的 问题 摆 在 我 们 面前 。 当 要 处 理 的 数据 量变 得 非常 巨大 时 ， 光 数据 传 
输 所 消耗 的 时 间 都 会 变 得 无 法 忽略 了 。 在 Google 公司 所 要 处 理 的 PB 级 别 数据 量 下 ， 光 是 数据 
的 拷贝 所 花费 的 时 间 ， 就 能 达到 “天 ”这 个 数量 级 。 












































MapReduce 正 是 在 这 一 背景 下 诞生 的 技术 ，HashFold 也 需要 考虑 到 这 方面 因素 而 不 断 提 升 
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所 幸 的 是 ， 我 所 用 的 联想 ThinkPad X61 安装 了 Intel Core2 Duo 这 个 双核 CPU ， 没 有 理由 不 
充分 利用 它 。 通 过 使 用 多 个 CPU 进行 同时 处 理 ， 即 并 发 编程 ， 为 处 理性 能 的 提高 提供 了 新 的 可 
能 性 。 























匀 目前 的 Ruby 实现 所 存在 的 问题 





然而 ， 从 充分 利用 多 核 的 角度 来 看 ， 目 前 的 Ruby 实现 是 存在 问题 的 。 作 为 并 发 编程 的 工 
具 ， 我们 可 以 使 用 线程 ， 但 Ruby 1.8 中 的 线程 功能 是 在 解释 器 级 别 上 实现 的 ， 因 此 只 能 同时 进 
行 一 项 处 理 ， 并 不 能 充分 利用 多 核 的 性 能 。 在 Ruby 1.9 中 ， 线 程 的 实现 使 用 了 操作 系统 提供 的 
pthread 库 ， 本 来 应 该 是 可 以 利用 多 核 的 ， 但 在 Ruby 1.9 中 ， 为 了 保护 解释 器 中 非 线 程 安全 的 部 
分 而 加 上 了 一 个 称 为 GIL (Giant Intepreter Lock ) “的 锁 ， 由 于 这 个 锁 的 限制 ， 每 次 还 是 只 能 同 
时 执行 一 个 线程 ， 看 来 在 Ruby 1.9 中 要 利用 多 核 也 是 很 困难 的 。 























那么 ,如 果 要 在 Ruby 上 利用 多 核 ,该 怎样 做 呢 ? 一 种 方法 是 采用 没有 加 GIL 锁 的 实现 。 所 幸 ， 
在 JVM 上 工作 的 JRuby 就 没有 这 个 锁 ， 因 此 用 下 uby 就 可 以 充分 利用 多 核 了 。 不 过 ， 我 作为 
Ruby 的 实现 者 ， 在 这 一 点 上 却 非 要 使 用 JRuby 不 可 ， 总 有 点 “ 败 给 它 了 ”的 感觉 。 


饼 通 过 进程 来 实现 HashFold ( Level 2 ) 





“如 果 线 程 不 行 的话 那 就 用 进程 好 了 。” 不 过 ,仔细 想 想 就 会 发 现 ， 利 用 多 个 CPU 的 手段 ， 
操作 系统 不 是 原本 就 已 经 提供 了 吗 ? 那 就 是 进程 。 如 果 启 动 多 个 进程 ， 操 作 系 统 就 会 自动 进行 
调配 ， 使 得 各 个 进程 分 配 到 适当 的 CPU 资源 。 




















这 样 的 功能 不 利用 起 来 真是 太 浪费 了 。 首 先 ， 我 们 先 来 做 一 个 最 简单 的 进程 式 实现 ， 即 为 
每 个 输入 项 目 启动 一 个 进程 。 








为 每 个 输入 启动 一 个 进程 的 HashFold 实现 如 图 7 所 示 。 和 线程 不 同 ， 进 程 之 间 是 不 共享 内 
存 的 ， 因 此 为 了 返回 结果 就 需要 用 到 进程 间 通 信 。 在 这 里 ， 我 们 使 用 UNIX 编程 中 经 典 的 父子 
进程 通信 手段 pipe。 


























基本 处 理 流程 很 简单 。 对 各 输入 启动 相应 的 进程 ， 各 个 文件 的 单词 计数 在 子 进程 中 进行 。 
计数 结果 的 Hash 需要 返回 给 父 进程 ， 但 和 线程 不 同 ， 父 子 进 程 之 间 无 法 共享 对 象 ， 因 此 需要 使 








Qz 这 个 锁 的 功能 是 ， 在 多 线程 环境 中 ， 为 了 保护 非 线程 安全 ( 没有 考虑 到 多 线程 同时 并 行 运行 ) 的 代码 ， 只 允许 
同时 运行 一 个 线程 。( 原 书 注 ) 
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用 pipe 和 Marshal 将 对 象 进行 复制 并 转发 。 父 进程 从 子 进程 接收 Hash 后 ， 将 接收 到 的 Hash 通 
过 fold 方法 进行 全 并， 最终 得 到 单词 计数 的 结果 。 





说 到 这 里 ， 大 家 应 该 明白 图 7 程序 的 大 致 流程 了 。 而 作为 编程 技巧 ， 希望 大 家 记 住 关于 
fork 和 pipe 的 用 法 ,它们 在 使 用 进程 的 程序 中 几乎 是 不 可 或 缺 的 技巧 。 在 Ruby 中 ，fork 方 法 
可 以 附带 代码 块 来 进行 调用 ， 而 代码 块 可 以 只 在 子 进程 中 运行 ， 当 运行 到 代码 块 末尾 时 ， 子 进 
程 会 自动 结束 。 




















class HashFold 
def hash_merge(hash,k,v) < 一 调用 fo1d, 由 于 要 调用 多 次 ,因此 构建 在 方法 中 
if hash.key?(k) 
hash[k] = self.fol1d(hash[k]，v) < 一 一 如 果 遇 到 重复 则 调用 fo1d 方 法 


else 
hash[k] = Vv < 一 一 尚未 存在 则 存放 到 Hash 中 
end 
end 


def start(inputs) 
hasihe— nm 
inputs.map do |input| < 一 一 对 传递 给 start 的 每 个 输入 进行 循环 
p,Cc = I0.pipe 所 一 一 创建 用 于 父子 进程 间 通 信用 的 pipe 
fork do 所 一 一 创建 子 进程 ( fork ), 在 子 进程 中 运行 代码 块 
p.close < 一 一 关闭 不 使 用 的 pipe 
h = {} < 保存 结果 用 的 Hash 
self.map(input) do |k,v| < 一 调用 map 方 法 ,由 于 完全 复制 了 父 进 程 的 内 存 空间 ,因此 可 以 看 到 
父 进 程 的 对 象 ( input ) 
hash_merge(h,k,V) < 一 一 存放 数据 ,解决 重复 
end 
Marshal.dump(h,c) < 一 一 将 结果 返回 给 父 进程 ,这 次 使 用 Marshal 
end 
C.C10se 所 一 一 这 是 父 进 程 ,关闭 不 使 用 的 pipe 
Pp 所 一 一 对 父 进 程 一 侧 的 pipe 进 行 hap 
end.each do |f| < 一 一 读 取 来 自 子 进程 的 结果 
h = Marshal.1oad(f) 
if hash < 一 一 将 结果 Hash 进 行 合并 
h.each do |k,v| 
hash_merge(hash, k, v) 
end 
else 
hash = h 
end 
end 
hash 
end 
end 


# 单 词 计数 的 部 分 是 共通 的 
图 7 运用 进程 实现 的 HashFold 
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重要 的 事情 总 要 反复 强调 一 下 ，fork 的 作用 是 创建 一 个 当前 运行 中 的 进程 的 副本 。 由 于 是 


副本 ， 因 此 现在 可 以 引用 的 类 和 对 象 ， 在 子 进 程 中 也 可 以 直接 引用 。 但 是 ， 也 正 是 由 于 它 只 是 











一 个 副本 , 因此 如 果 对 对 象 进行 了 任何 变更 , 或 者 创建 了 新 的 对 象 , 都 无 法 直接 反映 到 父 进程 中 。 
这 一 点 ， 和 共享 内 存 空间 的 线程 是 不 同 的 。 








在 不 共享 内 存 空间 的 进程 之 间 进 行 信 息 的 传递 有 很 多 种 方法 ， 在 具有 父子 关系 的 进程 中 ， 
pipe 您 怕 是 最 好 的 方法 了 。 





pipe 方法 会 创建 两 个 分 别 用 来 读 取 和 写 入 的 IO (输入 输出 )。 





r,w = I10.pipe 
在 这 两 个 IO 中 


， 写 入 到 w 的 数据 可 以 从 r 中 读 取 出 来 。 正 如 刚才 所 讲 过 的 ， 由 于 子 进程 是 


父 进程 的 副本 ， 在 父 进 程 中 创建 pipe， 并 在 子 进程 中 对 pipe 进行 写 入 的 话 ， 就 可 以 从 父 进程 中 


将 数据 读 取 出 来 了 。 


作为 好 习惯 , 我 们 应 该 将 不 使 用 的 IO (在 这 里 指 的 是 父 进 程 中 用 于 写 入 的 ， 


和 子 进程 中 用 于 读 取 的 ) 关闭 掉 ， 避 免 对 资源 的 浪费 。 





在 这 个 程序 中 ， 


从 子 进 程 传递 结果 只 需要 创建 一 对 pipe， 如 果 需 要 双向 通信 则 要 创建 两 对 pipe。 


好 , 我 们 来 运行 一 下 看 看 。 将 图 7 的 HashFold 和 图 4 的 单词 计数 程序 组 合 起 来 保存 为 “hf2. 
Tb”， 并 运行 这 个 程序 。 在 1.9 环境 下 的 运行 结果 为 user 0.66 秒 、system 0.08 秒 、total 11.494 秒 。 
和 非 并 行 版 的 运行 时 间 18.788 秒 相 比 ， 速 度 是 原来 的 1.63 倍 。 考 虑 到 并 行 处 理 产 生 的 进程 创建 





开销 ， 以 及 Marshal 

















的 通信 开销 ，63% 的 改善 还 算是 可 以 吧 。 




















之 所 以 user 和 system 时 间 非 常 短 , 是 因为 实际 的 单词 计数 处 理 几 乎 都 是 在 子 进程 中 进行 的 ， 


此 没有 被 算 进 去 。 




















顺便 ， 在 1.8.7 上 的 运行 时 间 是 25.528 秒 ， 是 1.9 上 的 2.25 倍 。 














然而 ， 仔 细 看 一 看 的 话 ， 这 个 程序 还 是 有 一 些 问题 的 。 这 个 程序 中 ， 对 每 一 个 输入 文件 都 
会 启动 一 个 进程 ， 这 样 会 在 瞬间 内 产生 大 量 的 进程 。 这 次 我 们 对 292 个 文件 的 单词 进行 计数 ， 
创建 了 293 个 (文件 数量 + 管理 进程 ) 进程 ， 而 大 量 的 进程 则 意味 着 巨大 的 内 存 开 销 。 如 果 要 
统计 的 对 象 文 件数 量 继续 增加 ， 就 会 因为 进程 数量 太 多 而 引发 问题 。 


饼 抖 动 














当 进 程 数 量 过 多 时 ， 就 会 产生 拌 动 现象 。 


随 着 大 量 进 程 的 产生 ， 会 消耗 大 量 的 内 存 空间 。 在 最 近 的 操作 系统 中 ， 当 申请 分 配 的 内 存 
数量 超过 实际 的 物理 内 存 容量 时 ， 会 将 现在 未 使 用 的 进程 的 内 存 数据 暂时 存放 到 磁盘 上 ， 从 表 


图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


193 


第 A 云 计 算 时 代 的 编程 


面 上 看 ， 可 用 内 存 空间 变 得 更 多 了 。 这 种 技术 被 称 为 虚拟 内 存 。 


然而 ， 磁 盘 的 访问 速度 和 实际 的 内 存 相 比 要 慢 上 几 百 万 倍 。 当 进程 数量 太 多 时 ， 几 乎 所 有 
的 时 间 都 消耗 在 对 磁盘 的 访问 上 ， 实 际 的 处 理 则 陷于 停 沛 ， 这 就 是 抖动 。 











其 实 ， 用 Ruby 只 需要 几 行 代码 就 可 以 产生 大 量 的 进程 ， 从 而 故意 引发 拌 动 ， 不 过 在 这 里 我 
们 还 是 不 介绍 具体 的 代码 了 。 


当然 ， 操 作 系 统 方面 也 考虑 到 了 这 一 点 。 为 了 尽量 避免 发 生 拌 动 ， 也 进行 了 一 些 优化 。 例 
如 写 时 复制 (Copy-on-Write ) 技术 ,就 是 在 创建 子 进程 时 ， 对 于 所 有 的 内 存 空间 并 非 一 开始 就 
创建 副本 ， 而 是 先进 行 共享 ， 只 有 当 实 际 发 生 对 数据 的 改写 时 才 进 行 复 制 。 通 过 这 一 技术 ， 就 
可 以 避免 对 内 存 空 间 的 浪费 。 




















在 Linux 中 还 有 一 个 称 为 OOM Killer ( Out of Memory Killer ) 的 功能 。 当 发 生 拌 动 时 ,会 
选择 适当 的 进程 并 将 其 强制 结束 ， 从 而 对 拌 动 做 出 应 对 。 当 然 ， 操 作 系 统 不 可 能 从 人 类 意图 的 
角度 来 判断 哪个 进程 是 重要 的 ， 因 此 OOM Killer 有 时 候 会 错 杀 掉 一 些 很 重要 的 进程 ， 对 于 这 个 
功能 的 评价 也 是 毁誉 参半 。 








仿 运 用 进程 池 的 HashFold ( Level 3) 








大 量 产 生 进 程 所 带 来 的 问题 我 们 已 经 了 解 了 。 那 么 ,我 们 可 以 不 每 次 都 创建 进程 然后 舍弃 ， 
而 是 重复 利用 已 经 创建 的 进程 。 线 程 和 进程 在 创建 的 时 候 就 伴随 着 一 定 的 开销 ， 因 此 像 这 样 先 
创建 好 再 重复 利用 的 技术 是 非常 普遍 的 。 这 种 重复 利用 的 技术 被 称 为 池 (pooling ) (图 8 )。 
































class HashFold 
class Pool < 用 于 进程 池 的 类 
def initialize(hf，n) < 初始 化 ,指定 HashFold 对 象 以 及 进程 池 中 的 进程 数量 
pool = n.times.map{ < 创建 n 个 进程 
c0,p0 = I0.pipe < 通信 管道 :从 父 进 程 到 子 进程 ( 输入 ) 
pl,cl = I0.pipe < 通信 管道 :从 子 进程 到 父 进程 ( 输出 ) 
fork do < 创建 子 进程 
p0.close < 关闭 不 使 用 的 pipe 
pl.close 
100p do < 重复 利用 ,执行 循环 
input = Marshal.1oad(c0) rescue exit < 用 Marshal 等 待 输入 ,输入 失败 则 exit 
hash = {} < 保存 结果 用 的 Hash 
hf.map(input) do |k,v| < 调用 HashFold 对 象 的 nap 方 法 
hf.hash_merge(hash,k,v) < 数据 保存 ,解决 重复 
end 


图 8 运用 进程 池 的 HashFold 
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Marshal.dump(hash,cl) < 将 结果 返回 父 进程 


end 
end 
c0.close 有 @ 父 进程 中 也 关闭 不 使 用 的 pipe 
cleclose 
[p0,p1] < 对 输入 输出 用 的 pipe 进 行 mMap 


有 
@inputs = pool.map{|i,0| ij < 向 进程 池 写 入 用 的 I0 
@outputs = pool1.map{|li,o| 0} < 由 进程 池 读 出 用 的 10 
@ichann = @inputs.dup < 可 以 向 进程 池 写 入 的 I0 
@queue = [] < 写 入 队列 
@results = [] < 一 读 出 队列 

end 


def flush < 将 写 入 队列 中 的 数据 尽量 多 地 写 入 
loop do 
if @ichann.empty? 
0, @ichann, e = I0.sSelect([]，@inputs，[]) < 使 用 select 寻 找 可 写 的 10 (a) 
break if @ichann.empty? < 如 果 没 有 可 写 的 10 则 放弃 
end 
break if @queue.empty? < 如 果 不 存 在 要 写 入 的 数据 则 跳出 循环 
Marshal.dump(@queue.pop，@ichann.pop) < 可 写 则 执行 写 入 
end 
end 


private :flush < 这 是 一 个 用 作 内 部 实现 的 方法 ,因此 声明 为 private 
def push(obj) < 向 Poo1 写 入 数据 的 方法 

@queue.push obj 

lusin 
end 


def fill1 < 从 读 出 队列 中 尽量 多 地 读 出 数据 
t = @results.size == 0 ? nil: 0 二 result 队列 为 空 时 用 select 阻 塞 ,不 为 空 时 
则 只 检查 (timeout=0 ) 
ochann，i，e= I0.select(@outputs，[]，[], t) 如 获取 等 待 读 出 的 I0 (b) 
return if ochann == nil < 发 生 超时 的 时 候 
ochann.each do 
cochnamm on 
begin 
@results.push Marshal.load(c) 
rescue => e 
eaelose 
@outputs.delete(c) 
end 
end 
end 
private :fil11 < 用 于 内 部 实现 的 方法 ,因此 声明 为 private 


def result 
fill1 < 从 Pool1 中 获取 数据 的 方法 


8 运用 进程 池 的 HashFold ( 续 ) 








到 
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@results.pop 
end 
end 


def initialize(n=2) 
@pool = Pool.new(self,n) < HashFold 初 始 化 ,参数 为 构成 池 的 进程 数 
end 如- 仅 创 建 进程 池 


def hash_ merge(hash,k,v) 
if hash.key?(k) < Hash 合 并 
hash[k] = self.fold(hash[k], v) 
else 
hash[k] = v 
end 
end 


def start(inputs) 
inputs.each do |input| < HashFold 计 算 开 始 
@poo1l.push(input) < 将 各 输入 传递 给 Poo1 
end 


hash = {} 

inputs.each do |input| 
@pool.result.each do |k,v| < 获取 结果 用 的 Hash 

hash_merge(hash,，k,v) < 将 结果 Hash 进 行 合并 

end 

end 

hash 

end 
end 


到 8 ”运用 进程 池 的 HashFold ( 续 ) 

和 图 7 程序 相 比 ， 由 于 增加 了 重复 利用 的 代码 ， 因 此 程序 变 得 更 复杂 了 。 不 过 ， 要 想象 出 
这 个 程序 的 行为 也 并 不 难 。 

和 图 7 程序 相 比 ， 上 有 具体 的 区 别 在 于 并 非 每 个 输入 都 生成 一 个 进程 ， 而 是 实现 启动 一 定数 量 
的 进程 ， 对 这 些 进 程 传递 输入 ， 再 从 中 获取 输出 ， 如 此 反复 。 因 此 ， 图 7 的 程序 中 只 需要 用 一 
对 pipe， 而 这 次 的 程序 就 需要 分 别 用 于 输入 和 输出 的 两 对 pipe。 



























































此 外 ,在 并 发 编程 中 还 有 一 点 很 重要 ， 那 就 是 不 要 发 生 阻塞 。 如 果 试 图 从 一 个 还 没有 准备 
好 数据 的 pipe 中 读 取 数据 的 话 ， 在 数据 传递 过 来 之 前 程序 就 会 停止 响应 。 这 种 情况 被 称 为 阻塞 。 




















如 果 是 非 并 行 的 程序 ， 在 数据 准备 好 之 前 发 生 阻塞 也 是 很 正常 的 。 不 过 ， 在 并 行程 序 中 ， 
在 阻塞 期 间 其 他 进程 的 输入 也 会 停滞 ， 从 结果 上 看 ， 完 成 处 理 所 需 要 的 时 间 就 增加 了 。 











因此 ， 我 们 在 这 里 用 select 来 避免 阻塞 的 发 生 。select 的 参数 是 IO 排列 而 成 的 数组 ， 它 可 
以 返回 数据 已 准备 好 的 IO 数组 。select 可 以 监视 读 取 、 写 入 、 异 常人 处理 3 种 数据 ， 这 次 我 们 对 
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读 取 和 写 和 人 各 自分 别 调用 select。 





8 的 (a) 处 ， 对 位 于 池 中 进程 的 写 和 检查， 我 们 使 用 了 select。select 的 参数 是 要 监视 的 
IO 数组 ， 但 这 里 我 们 需要 检查 的 只 是 写 人 ， 因 此 只 在 第 2 个 参数 指定 了 一 个 IO 数组 , 第 1、 第 
3 参数 都 指定 了 空 的 数组 。 





8 的 (b) 处 ， 我 们 对 从 进程 池 中 读 出 结果 进行 检查 。select 在 默认 情况 下 ， 当 不 存在 可 读 
出 的 IO 时 会 发 生 阻塞 ,但 当 读 出 队列 中 已 经 有 的 数据 时 我 们 不 希望 它 发 生 阻塞 。 因 此 我 们 指 害 
了 一 个 第 4 参数， 也 就 是 超时 时 间 。select 的 第 4 参数 指定 一 个 整数 时 ， 等 待 时 间 不 会 超过 这 个 
最 大 秒 数 。 在 这 次 的 程序 中 ， 当 队列 不 为 空 时 我 们 指定 了 0， 也 就 是 立即 返回 的 意思 。 






































要 避免 发 生 阻 蹇 ， 除 了 select 之 外 还 有 其 他 手段 ， 比 如 使 用 其 他 线程 。 不 过 ， 一 般 来 说 ， 
通过 fork 创建 进程 和 线程 不 推荐 在 一 个 程序 中 同时 使 用 ， 最 大 的 理由 是 ，pthread 和 fork 组 合 起 
来 时 ， 实 际 可 调用 的 系统 调用 非常 有 限 ， 因 此 在 不 同 的 平台 上 很 难保 证 它 总 能 够 正常 工作 。 





























出 于 这 个 原因 , 同时 使 用 fork 和 线程 的 程序 , 可 能 会 导致 Ruby 解释 器 出 现 不 可 预料 的 行为 。 
例如 有 报告 说 在 Linux 下 可 以 工作 ,但 在 FreeBSD 下 则 不 行 ， 这 会 导致 十 分 棘手 的 bug。 

















那么 ， 我 们 用 图 8 的 HashFold 来 测试 一 下 实际 的 运行 速度 吧 。 和 之 前 其 他 程序 一 样 在 1.9 
的 相同 条 件 下 运行 ， 结 果 是 user 0.72 秒 ，system 0.06 秒 ，total 10.604 秒 。 由 于 不 存在 生成 大 量 
进程 所 带 来 的 开销 ， 性 能 有 了 稍 许 提 升 。 此 外 ， 对 抖动 的 抵抗 力 应 该 也 提高 了 。 顺 便 提 一 句 ， 
1.8.7 下 的 运行 时 间 为 25.854 秒 。 








食 小 结 


对 于 我 们 这 些 老 古董 程序 员 来 说 ，fork 、pipe 、select 等 都 是 已 经 再 熟悉 不 过 的 多 进程 编程 
API 了 ， 而 这 些 API 其 至 可 以 用 在 最 新 的 多 核 架 构 上 面 ， 真是 感到 无 比 丈 快 。 















































不 过 ， 目 前 市 售 的 一 般 PC， 虽 说 是 多 核 ， 但 对 于 一 台电 脑 来 说 也 就 是 双核 或 者 四 核 ， 稍 微 
贵 一 些 的 服务 器 可 以 达到 8 核 ， 而 一 台电 脑 拥 有 数 十 个 CPU 核心 的 超 多 核 (many-core ) 环境 
还 尚未 成 为 现实 。HashFold 等 计算 模型 本 来 的 目的 是 为 了 应 对 信息 爆炸 ， 而 以 目前 这 种 程度 的 
CPU 核心 数量 ， 尚 无 法 应 对 信息 爆炸 级 别 的 数据 处 理 。 











看 来 今后 我 们 必须 要 更 多 地 考虑 多 台 计 算 机 构成 的 分 布 式 环 境 了 。 
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2 SERIES 


4.4 ”进程 间 通 信 


SS 


























在 有 限 的 时 间 内 处 理 大 量 的 信息 ， 其 基本 手段 就 是 “分 割 统 治 "。 也 就 是 说 ， 关 键 是 如 何 分 
制 大 量 的 数据 并 进行 并 行 处 理 。 在 并 行 处 理 中 ， 充 分 利用 多 核 (一 人 台电 脑 具 备 多 个 CPU ) 和 分 
布 式 环境 ( 用 多 台 计 算 机 进行 处 理 ) 就 显得 非常 重要 。 





























仿 进 程 与 线程 
并 行 处 理 的 单位 ， 大 体 上 可 表 1 处理 的 单位 和 同时 运行 的 特征 
以 分 为 进程 和 线程 两 种 ( 表 1 )。 i 六 
二 3 线程 因 实 现 不 同 而 不 同 
进程 指 的 是 正在 运行 的 程 
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序 。 各 进程 是 相互 独立 的 ， 用 一 
般 的 方法 ， 是 无 法 看 到 和 改变 其 他 进程 的 内 容 和 状态 的 。 在 Linux 等 UNIX 系 操作 系统 中 ， 进 
程 也 无 法 中 途 保存 状态 或 转移 到 另 一 台 计 算 机 上 。 即 便 存 在 让 这 种 操作 成 为 可 能 的 操作 系统 ， 
也 只 是 停留 在 研究 阶段 而 已 ， 目 前 并 没有 民用 化 的 迹象 。 














男 一 方面 ， 多 个 线程 可 以 在 同一 个 进程 中 运行 ,线程 间 也 可 以 相互 合作 。 所 属于 同一 个 进 
程 的 各 线程 ， 其 内 存 空间 是 共享 的 ， 因 此 ， 多 个 线程 可 以 访问 相同 的 数据 。 这 是 一 个 优点 ,但 
同时 也 是 一 个 缺点 。 


说 它 是 优点 ， 是 因为 可 以 避免 数据 传输 所 带 来 的 开销 。 在 各 进程 之 间 ， 内 存 是 无 法 共享 的 ， 
因此 进程 间 通 信和 就 需要 对 数据 进行 拷贝 , 而 在 线程 之 间 进 行 数据 共享 , 就 不 需要 进行 数据 的 传输 。 


















































而 这 种 方式 的 缺点 ， 就 是 由 于 多 个 线程 会 访问 相同 的 数据 ， 因 此 容易 产生 冲突 。 例 如 引用 
了 更 新 到 一 半 的 数据 ， 或 者 对 相同 的 数据 同时 进行 更 新 导致 数据 损坏 等 ， 在 线程 编程 中 ， 由 于 
操作 时 机 所 导致 的 球 手 bug 是 肯定 会 遇 到 的 。 


























昌 然 灵活 使 用 线程 是 很 重要 的 ， 但 总 归 线 程 的 使 用 范 轩 是 在 一 台 计 算 机 中 ， 而 大 规模 的 数 
据 仅 靠 一 台 计 算 机 是 无 法 处 理 的 。 在 这 一 节 中 ,我 们 主要 来 介绍 一 下 多 台 计 算 机 环境 中 的 进程 
间 通 信 Lo] 
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4.4 进程 间 通 信 


饼 同一 台 计算 机 上 的 进程 间 通 信 


首先 , 我 们 来 看 同一 台 计 算 机 上 的 进程 间 通 信 。 正 如 我 们 在 4-3 中 讲 过 的 HashFold 的 实现 ， 
在 同一 台 计 算 机 上 充分 利用 多 个 进程 可 以 带 来 一 定 的 好 人 处。 尤其 是 在 现在 的 Ruby 实现 中 ， 由 于 
技术 上 的 障碍 使 得 靠 线 程 来 利用 多 核 变 得 很 困难 (JRuby 除外 )， 因 此 对 进程 的 活用 也 就 变 得 愈 
发 重要 了 。 

















在 Linux 等 UNIX 系 操作 系统 中 ， 同 一 台 计算 机 上 进行 进程 间 通 信 的 手段 有 以 下 几 种 : 


口 管道 (pipe ) 

口 消息 (message ) 

口 信号 量 ( semaphore ) 
口 共享 内 存 

口 TCP 套 接 字 

DQ UDP 套 接 字 

口 UNIX 域 套 接 字 























我 们 从 上 到 下 依次 解释 一 下 。 管 道 是 通过 pipe 系统 调用 创建 一 对 文件 描述 符 来 进行 通信 的 
方式 。 所 谓 文 件 描述 符 ， 就 是 表示 输入 输出 对 象 的 一 种 识别 符 ， 在 Ruby 中 对 应 了 IO 对象 。 当 
数据 从 某 个 pipe 写 人 时， 可 以 从 另 一 端的 pipe 读 出 。 事 先 将 管道 准备 好 ， 然 后 用 “fork” 系 统 
调用 创建 子 进程 ， 这 样 就 可 以 实现 进程 间 通 信 了 











消息 、 信 号 量 和 共享 内 存 都 是 UNIX 的 System V(5) 版 本 中 加 入 的 进程 间 通 信 API。 其 中 消 
息 用 于 数据 通信 ， 信 和 号 量 用 于 互 斥 锁 ， 共 享 内 存 用 于 在 进程 间 共 享 内 存 状态 。 它 们 结合 起 来 被 
称 为 sysvipc。 








不 过 ， 上 述 这 些 手 段 都 不 是 很 流行 。 例 如 管道 的 优点 在 于 非 父子 关系 的 进程 之 间 也 可 以 实 
现 通信 ， 但 是 当 不 再 使 用 时 必须 显 式 销 毁 ， 和 否则 就 会 一 直 占 用 操作 系统 资源 。 说 实话 这 并 不 是 
一 个 易 用 的 API, 而 关于 它 的 使 用 信息 又 很 少 , 于 是 就 让 人 更 加 不 想 去 用 了 , 真是 一 个 恶性 循环 。 
























































套 接 字 (socket ) 指 的 是 进程 间 通 信 的 一 种 通道 。 它 原本 是 4.2BSD 中 包含 的 一 个 功能 ,但 
除了 UNIX 系 操作 系统 之 外 ,包括 Windows 在 内 的 各 种 其 他 操作 系统 都 提供 了 这 样 的 功能 。 

















套 接 字 根据 通信 对 象 的 指定 方法 以 及 通信 的 性 质 可 以 分 为 不 同 的 种 类 ， 其 中 主要 使 用 的 包 
括 TCP 套 接 字 、UDP 套 接 字 和 UNIX 域 套 接 字 三 种 。 它 们 的 性 质 如 表 2 所 示 。 




















使 用 套 接 字 进行 通信 ， 需 要 在 事先 设 定好 的 连接 目标 处 ， 通 过 双方 套 接 字 的 相互 连接 创建 
一 个 通道 。 这 个 连接 目标 的 指定 方法 因 套 接 字 种 类 而 异 ， 在 使 用 最 多 的 TCP 套 接 字 和 UDP 套 
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接 字 中 ， 是 通过 主机 地 址 ( 主机 名 或 者 人 P 地 址 ) 和 端口 号 (1 到 65535 之 间 的 整数 ) 的 组 合 来 
指定 的 。 
表 2 套 接 字 的 分 类 与 特征 





























套 接 字 种 类 连接 目标 指定 方法 数据 分 隔 可 靠 性 
TCP 套 接 字 主机 地 址 + 端口 号 不 保存 有 
UDP 套 接 字 主机 地 址 + 端口 号 保存 无 
UNIX 域 套 接 字 路 径 保存 有 


























位 于 网 络 中 的 每 台 计 算 机 ， 都 拥有 一 个 被 称 为 卫 地 址 的 识别 码 (IPv4 是 4 字 节 的 序列 ， 
IPv6 是 16 字 节 的 序列 )。 例 如 在 IPv4 中 ,自己 正在 使 用 的 电脑 所 对 应 的 IP 地 址 为 “127.0.0.1”"。 
在 开始 通信 时 ， 通 过 指定 对 方 计 算 机 的 卫 地址， 就 相当 于 决定 了 要 和 哪 台 计 算 机 进行 通信 。 











IP 地 址 是 一 串 数 字 ， 非 常 难 记 ， 因 此 每 台 计 算 机 都 还 有 一 个 属于 自己 的 “主机 名 ”。 在 这 里 
i 不 讲述 或 多 细节 了 ， 不 过 简单 来 说 ， 通 过 DNS (Domain Name System ， 域 名 系统 ) 这 一 机 制 
ti 可 以 由 主机 名 来 获得 卫 地址 了 。 




















Sa tat 








奶 一 方面 ，UNIX 域 套 接 字 则 是 使 用 和 文件 一 样 的 路 径 来 指定 连接 目标 。 在 服务 融 一 端 创 
建 监听 用 的 UNIX 域 套 接 字 时 ， 需 要 指定 一 个 路 径 ， 而 结果 就 是 将 UNIX 域 套 接 字 创建 在 这 个 
指定 的 路 径 中 。 














以 路 径 作为 连接 目标 ， 就 意味 着 UNIX 域 套 接 字 只 能 用 于 同一 台 计 算 机 上 的 进程 间 通 信 。 
不 过 ，UNIX 域 套 接 字 还 具备 一 些 特殊 的 功能 ， 它 不 仅 可 以 传输 一 般 的 字 节 流 ， 还 可 以 传输 文 
件 描述 符 。 








TCP 套 接 字 被 称 为 流 套 接 字 (stream socket )， 写 人 的 数据 只 能 作为 单纯 的 字 节 流 来 对 待 ， 
因此 无 法 保存 每 次 写 入 的 数据 长 度 信息 。 








相对 地 ，UDP 套 接 字 和 UNIX 流 套 接 字 中 ， 写 入 的 数据 是 作为 一 个 包 ( 数据 传输 的 单位 ) 
来 发 送 的 ， 因 此 可 以 获取 每 次 写 入 的 数据 长 度 。 不 过 ， 当 数据 过 长 时 ， 数 据 包 会 根据 各 操作 系 
统 所 设 定 的 最 大 长 度 进行 分 割 。 











对 于 UDP 套 接 字 ， 有 一 点 需要 注意 ， 那 就 是 基于 UDP 套 接 字 的 通信 不 具备 可 靠 性 。 所 谓 
没有 可 靠 性 ， 就 是 说 在 通信 过 程 中 可 能 会 发 生 数据 到 达 顺 序 颠 倒 ， 最 坏 的 情况 下 ， 还 可 能 发 生 
数据 在 传输 过 程 中 丢失 的 情况 。 






































Q@ IPv6 中 本 机 地 址 表示 为 “::1”"， 关 于 IPv6 的 细节 在 本 书 中 就 不 再 袭 述 了 。( 原 书 注 ) 
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仿 TCP/IP 协议 














利用 网 络 进行 通信 的 协议 (protocol ) 迄今 为 止 已 经 出 现 了 很 多 种 ,但 其 中 一 些 因为 各 种 原 
因 已 经 被 淘汰 了 ， 现 在 依然 幸存 下 来 的 就 是 一 种 叫做 TCP/ 耻 的 协议 。TCP 套 接 字 就 是 “用 TCP 
协议 进行 通信 的 套 接 字 ” 的 意思 。 

















TCP 是 Transmission Control Protocal ( 传输 控制 协议 ) 的 缩写 。TCP 是 负责 错误 修 恢复 、 数 
据 再 发 送 、 流 量 控制 等 行为 的 高 层 协议 ， 它 是 在 一 种 更 低层 级 的 IP 协议 ( 即 Internet Protocol ) 
的 基础 之 上 实现 的 %。 





























UDP 则 是 User Datagram Protocol ( 用 户 数 据 报 协议 ) 的 缩写 。UDP 实际 上 是 在 卫 的 基础 
上 穿 了 一 件 薄 注 的 马甲 ， 和 TCP 相 比 ， 它 有 以 下 这 些 不 同 点 。 


1. 保存 通信 数据 长 度 





在 TCP 中 ， 发 送 的 数据 是 作为 字 节 流 来 处 理 的 。 虽 然 在 实际 的 通信 过 程 中 ， 数 据 流 会 被 分 
割 为 一 定 大 小 的 数据 包 , 但 在 TCP 层 上 这 些 包 是 连接 在 一 起 的 ， 无 法 按照 包 为 单位 来 查看 数据 。 




















相对 地 ， 通 过 UDP 发 送 的 数据 会 直接 以 数据 包 为 单位 进行 发 送 ， 作 为 发 送 单位 的 数据 包 
长 度 会 一 直 保 存 到 数据 接收 方 。 不 过 ， 如 果 包 的 长 度 超过 操作 系统 所 规定 的 最 大 长 度 〈 一 般 为 
9KB 左右 ) 就 会 被 分 制 开 ， 因 此 也 无 法 保证 总 是 能 获取 原始 的 数据 长 度 。 











2. 没有 纠 错 机 制 


要 发 送 的 数据 在 经 过 网 络 到 达 接 收 方 的 过 程 中 ， 可 能 会 发 生 一 些 状 况 ， 比 如 数据 包 的 顺序 
发 生 了 调换 ， 最 坏 的 情况 下 甚至 发 生 整 个 数据 包 丢 失 。 在 TCP 中 ， 每 个 数据 包 都 会 被 赋予 一 个 
编号 ， 如 果 包 顺序 调换 ， 或 者 本 来 应 该 收 到 的 包 没有 收 到 ， 接 收 方 会 通知 发 送 方 “ 某 个 编号 的 
包 没 有 收 到 ”， 并 请 求 发 送 方 重新 发 送 该 包 ， 这 样 就 可 以 保证 数据 不 会 发 生 遗 漏 。 












































此 外 ,还 可 以 在 网 络 繁 忙 的 时 候 ， 对 一 次 发 送 数 据 包 的 大 小 和 数量 进行 调 广 ， 以 避免 网 络 
发 生 阻 寨 。 


相对 地 ，UDP 则 没有 这 些 机 制 ， 像 “顺序 调换 了 ”“ 发 送 的 数据 没收 到 ”这 样 的 情况 ， 必 
须 自 己 来 应 付 。 





























@D 网 络 通信 协议 从 低 到 高 共 分 为 5 层 ( 分 别 对 应 OSI 通信 模型 中 的 第 3 ~ 7 层 ), 其 中 TCP 和 UDP 都 属于 较 高 的 " 伟 
痊 层 ”( OSI 第 6 层 ), IP 属于 更 低 一 级 的 “网 络 层 ”( OSI 第 5 层 ), 而 更 常见 的 HTTP FTP 等 则 属于 最 高 的 “应 
用 层 " (OSI 第 7 层 ) 
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3. 不 需要 连接 





在 TCP 中 ， 通 信 对 象 是 固定 的 ， 因 此 ， 如 果 要 和 多 个 对 象 进行 通信 ， 则 需要 对 每 个 对 象 分 
别 使 用 不 同 的 套 接 字 。 

相对 地 ，UDP 则 是 使 用 sendto 系统 调用 来 显 式 指定 发 送 目 标 ， 因 此 每 次 发 送 数 据 时 可 以 发 
送 给 不 同 的 目标 。 在 接收 数据 时 ， 也 可 以 使 用 recvfrom 系统 调用 ， 一 并 获取 到 发 送 方 的 信息 。 
虽然 UDP 不 需要 进行 连接 ， 但 在 需要 的 情况 下 ， 也 可 以 进行 显 式 的 连接 来 固定 通信 对 象 。 


4. 高 速 









































由 于 TCP 可 以 进行 复杂 的 控制 ,因此 使 用 起 来 比较 方便 。 但 是 , 由 于 需要 处 理 的 工作 更 多 ， 
其 实时 性 便 打 了 折扣 。 


UDP 由 于 处 理工 作 非 常 少 ， 因 而 能 够 发 挥 PP 协议 本 身 的 性 能 。 在 一 些 实时 性 大 于 可 靠 性 的 
网 络 应 用 程序 中 ， 很 多 是 出 于 性 能 上 的 考虑 而 选择 了 UDP。 

例如 ， 在 音频 流 的 传输 中 ， 即 便 数据 发 生 丢 失 也 只 不 过 是 造成 一 些 音质 损失 ( 例如 产生 一 
些 杂 音 ) 而 已 。 相 比 之 下 ， 维 持 较 低 的 延迟 则 显得 更 加 重要 。 在 这 样 的 案例 中 ， 比 较 适合 采用 
UDP 协议 来 进行 通信 。 
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在 套 接 字 的 使 用 上 ， 已 经 有 了 用 系统 调用 构建 的 C 语言 API。 通 过 C 语言 可 以 访问 的 套 接 字 
相关 系统 调用 如 表 3 所 示 。TCP 套 接 字 的 使 用 方法 和 步骤 ,以 及 无 连接 型 UDP 的 步骤 如 图 1 所 示 。 


表 3 套 接 字 相关 系统 调用 










































































系统 调用 功 能 
accept (fd, addr, len ) 接受 连接 并 返回 一 个 新 的 套 接 字 
bind ( fd, addr len ) 对 服务 器 端 套 接 字 命名 
connect ( fd, addr len ) 套 接 字 连接 
getsockopt ( fd,level,optname,optval,optlen ) 获取 套 接 字 选项 
listen (fd,n ) 设置 连接 队列 ( 固定 用 法 ) 
recv ( fd, data, len, flags ) 接收 数据 ( 可 指定 flags ) 
recvfrom (fd, data, len, flags, addr, alen ) 包含 发 送 方 信息 的 数据 接收 
send ( fd, data, len, flags ) 发 送 数据 ( 可 指定 flags ) 
sendto ( fd, data, len, flags, addr alen ) 指定 接收 方 的 数据 发 送 
setsockopt ( fd,level,optname,optval,optlen ) 设置 套 接 字 选 项 
socket ( domain, type, protocol ) 创建 套 接 字 
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4.4 


进程 间 通 信 


2 是 一 个 使 用 套 接 字 相 关系 TCP 套 接 字 的 使 用 方法 UDP 套 接 字 的 使 用 方法 
ee en 服务 器 端 a 
统 调 用 进行 套 接 字 通 信 的 客户 端 程 他 建春 接 字 (sockel) ee eeeey 
pe 
厅 。 这 个 程序 访 门 相 机 (localhost ) 。 [项 丽 春 要 等 和 二 辣 大 二 (Diiajj 。 上手 十 目标 输 划 (SSndio 
的 13 号 端口 ， 将 来 自 该 端口 的 数 v 接收 发 送 方 信息 及 
据 吉 接 输出 至 标准 输出 设备 接受 套 接 字 连 接 ( accept ) 数据 ( recvfrom ) 














获得 与 客户 端 连接 的 新 套 接 字 
D4 
13 号 端口 是 返回 当前 时 间 的 输入 输出 ( read, write, recv, send ) 











“daytime” 服 务 端口 号 码 ， 所 返回 谊 户 端 
的 当前 时 间 是 一 个 字符 串 。 最 近 的 创建 套 接 字 ( Socket ) 
操作 系统 倾向 于 关闭 所 有 不 必要 的 | connect ) 





用 。 如 果 你 电脑 上 的 daytime 服务 
正常 工作 的 话 ， 运 行 这 个 程序 将 显 
示 类 似 下 面 这 样 的 字符 串 : 























六 








Soc 和 6 是 2U0 


#include 《stdio.h> 
#include <string.h> 
#include <sys/types.h> 
#include <sys/socket.h> 
#include <netdb.h> 


int main() 























服务 ， 因 此 daytime 服务 可 能 不 可 输入 输 册 (read, Write recv, send ) ”括号 内 为 系统 调 


图 1 连接 型 TCP 套 接 字 和 无 连接 型 UDP 套 接 字 的 使 












































{ 
nbsSIOC ks 
struetesoekadaraineade 
struct hostent *host; 
le oir Lule 
Ue 
页 sock = Socket(PF_INET，SOCK_STREAM，0); < socket 系统 调用 
指 raddr.sin_family = AF_INET; 
和 host = gethostbyname("localhost"); 
接 1 memcpy(&addr.sin_addr, host->h_addr, sizeof(addr.sin_addr)); 
目 addr.sin_port = htons(13); /* daytime service */ 
标 connect(sock, (struct sockaddr*)&addr, sizeof(addr)):; 
n= read(sock, buf, sizeof(buf)):; 
Do NO 
pws bu Glove 
3 
到 2 用 C 语言 编写 的 网 络 客户 端 
用 C 语言 来 编写 程序 ， 仅 仅 是 打开 套 接 字 并 读 取 数据 这 么 简单 的 操作 ， 也 需要 十 分 繁琐 的 
代码 。 
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那 我 们 就 来 看 一 看 程序 的 内 容 吧 。 首 先 通 过 第 15 
行 的 socket 系统 调用 创建 套 接 字 。 其 中 参数 的 意思 是 使 
用 基于 IP 协议 的 流连 接 (TCP )( 表 4), 第 3 个 参数 “0” 


表示 使 用 指定 通信 域 的 “最 普通 ”的 协议 ,一般 情 况 下 
设 为 0 就 可 以 了 。 









































第 16 ~ 19 行 用 于 指定 连接 目标 。sockaddr in 结 
构 体 中 存放 了 连接 目标 的 地 址 类 型 ( 类 别 )、 主 机 地 址 
和 端口 号 。 














表 4 ” ”socket 系统 调用 的 参数 


























协议 类 型 说 明 
PF_INET IPv4 协 议 
PF_INET6 IPv6 协 议 
PF APPLETALK ApleTalk 协 议 
PF_IPX IPX 协 议 

通信 类 型 
SOCK_STREAM 字 节 流 套 接 字 
SOCK DGRAM 数据 报 套 接 字 


需要 注意 的 是 第 19 行 中 指定 端口 号 的 htons()。htons() 函数 的 功能 是 将 16 位 整数 转换 为 网 
络 字 节 序 (network byte order )， 即 各 字 节 的 发 送 顺序 。 由 于 套 接 字 连 接 目标 的 指定 全 部 需要 通 
过 网 络 字 节 序 来 进行 ， 如 果 忘 记 用 这 个 函数 进行 转换 的 话 就 无 法 正确 连接 。 











服务 需 端 程序 则 更 加 复杂 ， 因 此 在 这 里 不 再 痪 述 ， 不 过 大 家 应 该 对 用 C 语言 处 理 网 络 连接 














有 一 个 大 概 的 了 解 了 吧 。 


信用 Ruby 进行 套 接 字 编 程 








以 系统 调用 为 基础 的 C 语言 套 接 字 纺 
C 语言 程序 拥有 相同 功能 的 Ruby 程序 。 


























require "Socket 
priinealePsocketsopen locallnoses daytime ,read 





页 











3 Ruby 编写 的 网 络 客户 端 











程 相当 麻烦 。 那 么 ，Ruby 怎么 样 呢 ? 图 3 是 和 图 2 的 








值得 注意 的 是 ， 除 了 库 引 用 声明 “require” 那 一 行 之 外 ， 实 质 上 只 需要 一 行 代 码 就 完成 了 








套 接 字 连接 和 通信 。 和 C 语言 相 比 ，Ruby 的 优势 相当 明显 。 


用 套 接 字 进行 网 络 编程 是 Ruby 最 擅长 的 领域 之 一 ， 原 因 如 下 。 


1. 瓶颈 





在 程序 开发 中 ， 对 于 是 否 采用 Ruby 这 样 的 脚本 语言 ， 








在 比较 简单 的 工作 中 ， 如 果 由 于 解释 器 的 实现 方式 导致 性 能 下 降 ， 其 影 


犹 光 不 决 的 理由 之 一 就 是 运行 性 能 。 


响 是 相当 大 的 。 妇 





果 用 一 个 简单 的 循环 来 测试 程序 性 能 ， 
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那么 Ruby 程序 速度 可 
至 百 分 之 一 。 交 从 这 一 点 来 看 ， 大 家 不 禁 要 担心 ， 这 么 慢 到 底 


onl 


不 能 用 呢 ? 


only 
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E 只 有 C 语言 程序 的 十 分 之 一 其 


1 








4.4 进程 间 通 信 


不 过 ， 程 序 的 运行 时 间 其 实 大 部 分 都 消耗 在 C 语言 编写 的 类 库 内 部 ， 对 于 拥有 一 定 规模 的 
了 


实用 型 程序 来 说 ， 差 距 并 没有 那么 大 。 


更 进一步 说 ， 对 于 以 网 络 通信 为 主体 的 程序 来 说 ， 其 瓶颈 几乎 都 在 于 通信 部 分 。 和 本 地 访 
问 数 据 相 比 ， 网 络 通信 的 速度 是 非常 慢 的 。 既 然 瓶颈 在 于 通信 本 身 ， 那 么 其 他 部 分 即便 运行 速 














度 再 快 ， 也 和 整体 的 性 能 关系 不 大 了 。 











2. 高 级 API 








C 语言 中 可 以 使 用 的 套 接 字 API 包括 结构 体 和 多 个 系统 调用 ， 非 常 复杂 。 





在 图 2 的 C 语言 程序 中 ， 为 了 指定 连接 目标 ， 必 须 初 始 化 sockaddr in 结构 体 ， 非 常 麻烦 。 
相对 地 , 在 Ruby 中 由 于 TCPSocket 类 提供 了 比较 高 级 的 API, 因此 程序 可 以 变 得 更 加 简洁 易 懂 。 














如 果 想 和 C 语言 
现 了 。 








仿 Ruby 的 套 接 字 功能 


样 使 用 套 接 字 的 全 部 功能 ， 








通过 支持 直接 访问 系统 调用 的 Socket 类 就 可 以 实 








那么 ， 我 们 来 详细 看 看 Ruby 的 套 接 字 功能 I 





来 提供 的 。 要 使 用 socket 库 的 功能 ， 


require "Socket 











socket 库 中 提供 的 类 包括 BasicSocket、IPSocket、TCPSocket、 


TCPServer、 UDPSocket、UNIXSocket、UNIXServer 和 





Socket ( 图 4)。 在 客户 端 编程 上 ， 全 怕 其 中 用 得 最 多 的 应 该 是 














TCPSocket， 而 在 服务 器 端 则 是 TCPServer。 


其 中 Socket 类 可 以 调用 操作 系统 中 套 接 字 接口 的 所 有 功 





能 ， 但 由 于 是 直接 访问 操作 系统 的 接口 ， 
复杂 。Ruby 的 套 接 字 属于 IO 的 子 类 ， 
行 

















因此 程序 就 会 变 得 比 
因此 对 套 接 字 也 可 以 








普通 的 输入 输出 操作 ， 这 一 点 非常 方便 。 


BasicSocket 是 IO 的 直接 子 类 ， 同 时 也 是 其 他 所 有 套 接 
字 类 的 超 类 。BasicSocket 是 一 个 抽象 类 ， 并 不 能 创建 实例 。 











BasicSocket 类 中 的 方法 如 表 $ 所 示 。 





IPSocket 是 BasicSocket 的 子 类 ， 也 是 TCPSocket、UDPSocket 的 超 类 ， 
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巴 。 在 Ruby 中 ， 套 接 字 功能 是 由 “socket” 库 
需要 在 Ruby 程序 中 通过 下 面 的 方式 来 加 载 这 个 库 : 





加 BasicSocket 





| IPSocket 


eelCpSocket 


a 


| _ UDPSocket 


UNIXSocket 





| _ UNIXServer 


| Socket 





页 











4 ” 套 接 字 相 关 的 类 


它 包 含 了 这 两 个 类 


* 才 > 云 计 算 时 代 的 编程 


共通 的 一 些 功 能 ， 也 是 一 个 抽象 类 。IPSocket 类 中 的 方法 如 表 6 所 示 。 
表 5 ”BasicSocket 类 的 方法 






















































































实例 方法 说 明 
close_read 关闭 读 取 
close_write 关闭 写 入 
getpeername 连接 目标 套 接 字 信息 
getsockname 自己 的 套 接 字 信息 a 
getsockopt ( opt ) 获取 套 接 字 选 项 表 6 1IPSocket 类 的 方法 
recv (len | ,flag ]) 数据 接收 实例 方法 说 明 
send (str [ ,flag |) 数据 发 送 addr 自己 的 套 接 字 信息 
setsockopt (opt,val ) 设置 套 接 字 选项 peeraddr 连接 目标 套 接 字 信息 
shutdown ([ how ]) 结束 套 接 字 通 信 recvfrom (len | ,flag ]) 数据 接收 

















TCPSocket 是 连接 型 套 接 字 ， 即 和 通信 对 方 进行 连接 并 进行 连续 数据 传输 的 套 接 字 。 
TCPSocket 是 一 个 具体 类 ( 可 以 直接 创建 实例 的 类 )。 创建 实 例 需 要 使 用 new 方法 ，new 方法 的 
调用 方式 为 new (host, port)， 可 以 完成 套 接 字 的 创建 和 连接 操作 。 







































































TCPServer 是 TCPSocket 的 服务 器 版 本 ， 通 表 7 TCPServer 类 的 方法 
过 这 些 类 可 以 大 大 简化 服务 器 端的 套 接 字 处 理 。 “类 方法 | 说 有 明 
当 为 new 方法 指定 两 个 参数 时 ， 可 以 限定 只 接受 new ([ host, ] port ) 套 接 字 的 创建 和 连接 
来 自 第 一 个 参数 所 指定 的 主机 的 连接 ( 表 7 )。 实例 方法 

accept 接受 连接 

UDPSocket 是 对 UDP 型 套 接 字 提供 支持 的 listen (n ) 设置 连接 队列 
类 。UDP 型 套 接 字 是 无 连接 型 套 接 字 ， 其 特征 是 
可 以 保存 每 次 写 入 的 数据 长 度 。UDPSocket 类 中 表 8 ”UDPSocket 类 的 方法 
的 方法 如 表 8 所 示 。 ”类 方法 | 说 上 明 

UNIXSocket 是 用 于 UNIX 域 套 接 字 的 类 。 人 
UNIX 域 套 接 字 是 一 种 用 于 同一 台 计 算 机 上 进程 bind (hostport) 为 在 接 字 命 名 
间 通 信 的 手段 在 通信 目 标 的 指定 上 采用 “文件 connect ( host, port ) 套 接 字 连 接 








路 径 ” 的 方式 ， 其 他 方面 和 TCPSocket 相同 ， 也 send ( data [ ,flags,host, 
是 需要 连接 并 进行 流 式 输入 输出 。UNIXSocket 类 。 2 
中 的 方法 如 表 9 所 示 。 














send io 和 recv io 这 两 个 方法 是 UNIX 域 套 接 字 的 独门 功夫 。 使 用 这 两 个 方法 ， 可 以 通过 
UNIX 域 套 接 字 将 文件 描述 符 传递 给 其 他 进程 。 一 般 来 说 ， 在 进程 间 传 递 文件 描述 符 ， 只 能 i 
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过 具有 父子 关系 的 进程 间 共 享 这 一 种 方式 ,但 使 
用 UNIX 域 套 接 字 就 可 以 在 非 父子 关系 的 进程 间 
实现 文件 描述 符 的 传递 了 。 














UNIXServer 是 UNIXSocket 的 服务 器 版 本 。 
和 TCPServer 一 样 ， 用 于 简化 套 接 字 服 务 需 的 实 
现 。 其 中 所 补充 的 方法 也 和 TCPServer 相同 。 





最 后 要 介绍 的 Socket 类 是 一 个 底层 套 接 字 






































表 9 ”UNIXSocket 类 的 方法 

类 方法 说 明 
new (path ) 创建 套 接 字 
socketpair 创建 套 接 字 对 

实例 方法 

path 套 接 字 路 径 
addr 自己 的 套 接 字 信 息 
peeraddr 连接 目标 套 接 字 信息 











接口 。Socket 类 所 拥有 的 方法 对 应 着 C 话 言 乡 


recvfrom (len [ ,flag ]) 数据 接收 





别 的 全 部 套 接 字 API， 因 此 ， 只 要 使 用 Socket 
类 ， 就 可 以 和 C 语言 一 样 进行 同样 细 化 的 程序 设 
计 , 但 由 于 这 样 实在 太 繁 琐 所 以 实际 上 很 少 用 到 。 
Socket 类 中 的 方法 如 表 10 所 示 ， 套 接 字 相关 各 类 
的 功能 一 览 如 表 11 所 示 。 





send io (io ) 


发 送 文件 描述 符 

















recv io([ klass,mode ]) 接收 文件 描述 符 


表 10 Socket 类 的 方法 






















































































类 方法 说 明 
new ( domain,type,protoco!l ) 创建 套 接 字 
socketpair ( domain,type,protocol ) 创建 套 接 字 对 
gethostname 获取 主机 名 
gethostbyname ( hostname ) 获取 主机 信息 
gethostbyaddr ( addr, type ) 获取 主机 信息 
getservbyname ( name[,proto] ) 获取 服务 信息 
getaddrinfo ( hostservice[,familytype,protocol] ) 获取 地 址 信息 
getnameinfo ( addr[,flags] ) 获取 地 址 信息 
pack sockaddr in ( host,port ) 创建 地 址 结构 体 
unpack sockaddr in ( addr ) 解 包 地 址 结构 体 

实例 方法 

accept 等 待 连接 
bind (addr) 为 套 接 字 命名 
connect ( host, port ) 连接 套 接 字 
listen (n ) 设置 连接 队列 
recvfrom (len[,flag] ) 数据 接收 
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表 11 套 接 字 相 关 的 类 
















































































BasicSocket 所 有 套 接 字 类 的 超 类 ( 抽象 类 ) 
IPSocket 执行 PP 通信 的 抽象 类 

TCPSocket 连接 型 流 套 接 字 

TCPServer TCPSocket 用 的 服务 器 套 接 字 
UDPSocket 无 连接 型 数据 报 套 接 字 

UNIXSocket 用 于 同一 主机 内 进程 间 通 信 的 套 接 字 
UNIXServer UNIXSocket 用 的 服务 器 套 接 字 
Socket 可 使 用 Socket 系 统 调 用 所 有 功能 的 类 





必用 Ruby 实现 网 络 服务 器 

















我 们 已 经 通过 C、Ruby 两 种 语言 介绍 了 客 require 'socket' 





户 端 套 接 字 编程 的 例子 ， 下 面 我 们 来 看 看 服务 占 。 5 


= TCPServer.new(12345) 


loop { 


端的 设计 。 刚 才 那 个 访问 daytime 服务 的 程序 可 
能 有 很 多 人 都 无 法 成 功 运行 ， 于 是 我 们 来 编写 一 
个 和 daytime 服务 融 拥 有 相同 功能 的 服务 融 程 序 。 } 

















El SECESUL 
celepionmnta me Ww rntime cy 
cl.close 


原来 的 daytime 服务 端口 只 能 由 root 账 号 使 用 图 5 Ruby 编写 的 网 络 服务 器 











(1024 号 以 内 的 端口 都 需要 root 权限 )， 因 此 我 们 
将 连接 端口 设置 为 12345 (图 5 )。 











这 样 就 完成 了 。 网 络 服 务 絮 可 能 给 人 的 印象 很 庞大 ， 


于 TCPServer 类 所 提供 的 高 级 API。 


先 运 行 这 个 程序 ， 然 后 从 另 一 个 终端 窗口 中 运行 
Ruby 版 见 图 3 )， 运 行 之 前 别 忘 了 将 daytime 的 部 分 替换 
下 面 这 样 的 一 个 时 间 就 表示 成 功 了 。 


Momeeolune lm2006 





其 实 却 出 人 意料 地 简单 。 这 也 要 归功 





刚才 的 客户 端 程序 (C 语 言 版 见 图 2， 
成 “12345”。 运 行 结果 如 果 显 示 出 类 似 


下 面 我 们 来 简单 讲解 一 下 图 5 的 这 个 程序 。 第 2 行 我 们 创建 了 一 个 TCPServer， 参 数 是 用 
于 连接 的 端口 号 ， 仅 仅 如 此 我 们 就 完成 了 TCP 服务 的 建立 。 





第 3 行 开始 是 主 循环 。 第 4 行 中 对 于 TCPServer 套 





接 字 调用 accept 方法 。accept 方法 会 等 





待 来 自 客户 端的 连接 ， 如 果 有 连接 请 求 则 返回 与 客户 端 建立 连接 的 新 套 接 字 ， 我 们 在 这 里 将 新 
套 接 字 赋 值 给 变量 cl。 客 户 端 套 接 字 是 TCPSocket 的 对 象 ， 即 IO 的 子 类 ， 因 此 它 也 是 一 个 可 以 


执行 一 般 输入 输出 操作 的 对 象 。 
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4.4 进程 间 通 信 


第 5 行 print 当前 时 间 ,daytime 服务 的 处 理 就 这 么 多 了 。 处 理 完成 后 将 客户 端 套 接 字 close 掉 ， 


然后 调用 accept 等 待 下 一 个 连接 。 


图 5 的 程序 会 对 请 求 逐 一 进行 处 理 。 对 于 像 
daytime 这 样 仅 仅 是 返回 一 个 时 间 的 服务 也 许 还 
好 ,如 果 是 更 加 复杂 的 处 理 的 话 ,这样 可 就 不 行 了 。 
如 果 Web 服务 器 在 完成 前 一 个 处 理 之 前 无 法 接受 
下 一 个 请 求 ， 其 处 理性 能 就 会 下 降 到 无 法 容忍 的 
地 步 。 在 这 样 的 情况 下 ， 使 用 线程 或 进程 进行 并 
行 处 理 是 比较 常见 的 做 法 。 使 用 线程 进行 并 行 化 
的 程序 如 图 6 所 示 。 





























require "Socket" 
s = TCPServer.new(12345) 
loop { 

Mihineades ate accept ea 
cl.print Time.now.strftime("%c") 

elolosie 

} 

} 


图 6 用 线程 实现 并 行 处 理 的 程序 



































正如 大 家 所 见 ， 用 Ruby 进行 网 络 编程 是 非常 容易 的 。 有 很 多 人 认为 提 到 Ruby 就 必然 要 提 
到 Web 编程 ， 或 许 不 如 说 ， 只 有 网 络 编程 才能 发 挥 Ruby 真正 的 价值 吧 。 

















依 小 结 





利用 套 接 字 ， 我 们 就 可 以 通过 网 络 与 地 球 男 一 端的 计算 机 进行 通信 。 不 过 ， 套 接 字 所 能 传 
输 的 数据 只 是 字 节 序列 而 已 ,如 果 要 传输 文本 以 外 的 数据 ,在 传输 前 需要 将 数据 转换 为 字 节 序列 。 























这 种 转换 一 般 称 为 序列 化 ( serialization ) 或 者 封 送 (marshaling )。 在 分 布 式 编程 环境 中 ， 
由 于 会 产生 大 量 数据 的 传输 ， 因 此 序列 化 通常 会 成 为 左右 整体 性 能 的 一 个 重要 因素 。 
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A SEE 
Rack = | 
大 ac Unicorn 


BY 


N 


SS 


Web 应 用 程序 服务 器 主要 由 HTTP 服务 需 与 Web 应 用 程序 框架 构成 。 说 起 HTTP 服务 器 ， 
Apache 是 很 有 名 的 一 个 ， 但 除 此 之 外 还 有 其 他 很 多 种 ， 例 如 高 性 能 的 新 型 轻 量 级 服务 器 nginx、 
以 纯 Ruby 实现 并 作为 Ruby 标准 组 件 附 带 的 WEBrick， 以 及 以 高 速 著称 的 Mongrel 和 Thin 等 。 





此 外 ，Web 应 用 程序 机 





























匡 架 方面 ， 除 了 易 易 大 名 的 Ruby on Rails 之 外 ， 还 出 现 了 如 Ramaze、 
Sinatra 等 “后 Rails” 框 架 。 于 是 ， 对 于 Web 框架 来 说 ， 就 必须 要 对 所 有 的 HITP 服务 器 以 及 应 
用 程序 服务 需 提 供 支 持 ， 这 样 的 组 合 方式 真 可 为 多 如 牛 毛 。 








为 了 解决 如 此 多 的 组 合 ， 出 现 了 一 种 叫 Rack 的 东西 (图 1 )。Rack 是 在 Python 的 WSGI 
的 影响 下 开发 的 用 于 连接 HTTP 服务 器 与 框架 的 库 。HTTP 服务 器 一 端 ， 只 需 对 Rack 发 送 请 求 ， 
就 可 以 连接 所 有 支持 Rack 的 框架 。 同 样 地 ， 在 框架 一 端 也 只 需要 提 
供 对 Rack 的 支持 ， 就 可 以 支持 大 多 数 HITP 服务 器 了 。 最 近 以 Ruby 为 基础 的 Web 应 用 程序 框 
架 ， 包括 Rails 在 内 ， 基 本 上 都 已 经 支持 Rack 了 。 





然后 接受 啊 应 并 进行 处 理 ， 








客户 端 ( 浏览 器 ) 
互联 网 





HTTP 服 务 器 | 





Web 应 用 程序 框架 





Web 应 用 程序 





Web 应 用 程序 服务 器 



































图 1 Web 应 用 程序 服务 器 架构 








Rack 的 基本 原理 ， 是 将 对 Rack 对 象 发 送 HTTP 
请 求 的 “环境 ”作为 参数 来 调用 call 方法 ， 并 将 以 
返回 值 方式 接收 的 请 求 组 织 成 HITP 请 求 。Rack 的 
Hello World 程序 如 图 2 所 示 。 


class HelloApp 
def call(env) 
E2000 Ee Comeent Ye > bext /len 
hellome Wo lc 
end 
end 


和 2 ”Hello World Rack 应 用 程序 






































GD WSGI: Web Server Gateway Interface ( Web 服务 器 网 关 接 口 ) 的 缩写 ， 是 Python 中 使 用 的 一 种 HTTP 服务 器 与 








Web 应 用 程序 框架 之 间 的 通用 接口 。( 原 书 注 
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4.5 Rack 与 Unicorn 


Rack 对 象 所 需 的 要 素 包 括 下 面 两 个 : 

口 带 有 一 个 参数 的 call 方法 。call 方法 在 调用 时 ， 其 参数 为 表示 请 求 环 境 的 Hash。 

口 call 方法 返回 之 3 个 元 素 的 数组 。 第 1 个 元 素 为 状态 代码 ( 整数 )， 第 2 个 元 素 为 表示 报 
头 的 Hash， 第 3 个 元 素 为 数据 本 体 〈 字 符 串 数组 )。 

















像 Rack 专用 类 等 特殊 的 数据 结构 是 不 需要 的 。 











好 了 ， 为 了 看 看 Rack 应 用 程序 实际 是 如 何 工作 的 ， require rubygems， 
我 们 将 图 2 的 程序 保存 到 “hellorb” 这 个 文件 中 ， 并 另外 require "rack' 
准备 一 个 名 为 “helloru” 的 配置 文件 (图 3)。 hellom 虽 
然 说 是 一 个 配置 文件 ， 但 其 实体 只 是 一 个 单纯 的 Ruby 程 run HelloApp.new 
序 而 已 。 准 备 好 hello.ru 文件 之 后 ， 我 们 就 可 以 使 用 Rack 。” 图 3 配置 文件 hello-ru 
应 用 程序 的 启动 脚本 “rackup” 来 启动 应 用 程序 了 。 























$ rackup hello.ru 

然后 ， 我 们 只 要 用 Web 浏览 器 访问 http://localhost:9292/， 就 会 显示 出 Hello World 了 。 这 次 
我 们 都 用 了 默认 配置 ， 端 口号 为 “9292”，HTTP 服务 器 则 是 用 了 “WEBrick”， 但 通过 配置 文件 
是 可 以 修改 这 些 配 置 的 。 























仿 Rack 中 间 件 





Rack 的 规则 很 简单 ,就 是 将 HTTP 请 求 作为 环境 对 象 进行 call 调用 ,然后 再 接收 响应 。 因 此 ， 
无 论 是 HITP 服务 器 还 是 框架 都 可 以 很 容易 地 提供 支持 。 














应 用 这 样 的 机 制 ， 只 要 在 实际 对 框架 进行 调用 之 前 补充 相应 的 call， 就 可 以 在 不 修改 框架 
的 前 提 下 ， 对 所 有 支持 Rack 的 Web 应 用 程序 增加 具备 通用 性 的 功能 。 这 种 方式 被 称 为 “Rack 
中 间 件 ”。 











Rack 库 中 默认 自 带 的 Rack 中 间 件 如 表 1 所 示 。 


中 间 件 的 使 用 可 以 通过 在 “.ru” 文 件 中 用 “use” 来 进行 指定 。 例 如 ， 如 果 要 对 Web 应 用 
添加 显示 详细 日 志 、 产 生 异 常 时 声称 生成 错误 页 面 以 及 显示 错误 状态 页 面 的 功能 ， 可 以 将 图 3 
的 hello.ru 文件 改写 成 图 4 这样。 每 个 功能 的 添加 只 需要 一 行 代码 就 可 以 完成 ， 可 见 其 表述 力 非 
常 优秀 。 
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表 1 Rack 中 间 件 


require "rubygems " 











































































































































































































中 间 件 内 容 require "rack" 
- ee require "he110" 
Rack::Auth::Basic BASIC 认 证 
Rack::Auth::Digest Digest 认 证 use Rack::CommonLogger 
Rack::Auth::OpenID OpenID 认证 usS@ aoles e Sion ee lons 
加 use Rack::ShowStatus 
Rack::Reloader 当 Ruby 脚 本 更 新 时 重新 加 载 
Rack::File 显示 静态 文件 run HelloApp.new 
Rack:: 组 合 Web ， 找 不 到 文件 时 尝试 下 一 个 、 
ack::Cascade 旧 合 We 应 用 找 不 到 文件 时 尝试 下 | 吏 4 helloru ( 使 中 间 件 ) 
Rack::Static 指定 目录 显示 静态 文件 
Rack::Lint 检查 应 用 是 否 符合 Rack 规 范 (开发 用 ) 
Rack::ShowExceptions 由 应 用 产生 的 异常 生成 错误 页 面 
Rack::ShowStatus 生成 状态 码 400、500 用 的 错误 页 面 
Rack::CommonLogger 生成 Apache common log 格 式 的 日 志 
Rack::Recursive 用 异常 进行 跳 转 
Rack::Session::Cookie 用 cookie 进行 会 话 管理 
Rack::Session::Pool 会 话 攻 进行 会 话 管理 








尺 应 用 程序 服务 器 的 问题 








正如 上 面 所 讲 到 的 ， 只 要 使 用 Rack，HTTP 服务 ee 
(客户 端 (浏览 器 ) ] 





需 与 Web 框架 就 可 以 进行 自由 组 合 了 。 这 样 一 来 ,我 
们 可 以 根据 情况 选择 最 合适 的 组 合 ， 但 如 果 网 站 的 互联 网 








流量 达到 一 定 的 规模 ， 更 常见 的 做 法 是 将 Apache 和 本 a | 
nginx 放 在 前 端 用 作 负 载 均衡 ， 而 实际 的 应 用 程序 则 T i J 
通过 Thin 和 Mongrel 进行 工作 ( 图 5 )。 ee I es ee 
其 中 ，Apache (或 者 nginx ) 负责 接收 来 自 客户 J 
端的 请 求 ， 然 后 将 请 求 按 顺 序 转发 给 下 属 的 Thin 服务 Web 应 用 程序 | 
器 ， 从 而 充分 利用 LO 等 待 等 情况 所 产生 的 空闲 时 间 。 上 -Ne 让 才 种 序 放 六 
此 外 ， 最 近 的 服务 吉大 多 都 安装 了 多 核 CPU， 像 这 样 
用 多 个 进程 分 担 工 作 的 架构 则 可 以 最 大 限度 地 利用 多 
核 的 性 能 。 
































加 

















Thin 是 一 种 十 分 快速 的 HTTP 服务 器 ， 在 大 多 数 情况 下 ， 这 样 的 架构 已 经 足够 了 。 但 在 某 
些 情况 下 ， 这 种 架构 也 会 发 生 下 面 这 些 问题 。 


口 响应 缓慢 
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4.5 Rack 与 Unicorn 


口 内 存 开销 
口 分 配 不 均衡 
口 重启 缓慢 
口 部 署 缓慢 





下 面 我 们 来 具体 看 看 这 些 问 题 的 内 容 。 
1. 响应 缓慢 


由 于 应 用 程序 的 bug， 或 者 数据 库 的 瓶颈 等 原因 ， 应 用 程序 的 响应 有 时 候 会 变 得 缓慢 。 虽 
然 这 是 应 用 方面 的 问题 ，HTTP 服务 器 是 没有 责任 的 ， 但 这 样 的 问题 导致 超时 是 成 为 引发 更 大 
问题 的 元 凶 。 





为 了 避免 这 样 的 问题 对 其 他 的 请 求 产 生 过 大 的 负面 影响 ， 默 认 情 况 下 Thin 会 停止 30 秒 内 
没有 响应 的 任务 并 产生 超时 。 但 不 笠 的 是 ， 不 知道 是 不 是 Ruby 在 线程 实现 上 的 关系 ， 这 个 超时 
的 机 制 偶尔 会 失灵 。 

















2. 内 存 开销 








有 些 情 况 下 ， 负 责 驱 动 Web 应 用 程序 的 Thin 等 服务 器 程序 的 内 存 开 销 会 变 得 非常 大 。 这 
种 内 存 开销 的 增加 往往 是 由 于 数据 库 连 接 未 释放 ， 或 者 垃圾 回收 机 制 未 能 回收 已 经 死亡 的 对 象 
等 各 种 原因 引发 的 。 








无 论 如 何 ， 服 务 器 上 的 内 存 容 量 总 归 是 有 限 的 ， 如 果 内 存 开销 产生 过 多 的 浪费 ， 就 会 降低 
整体 的 性 能 。 








和 响应 缓慢 一 样 ， 内 存 开销 问题 也 可 能 会 引发 其 他 的 问题 。 内 存 不 足 会 导致 处 理 负 担 增 加 ， 
处 理 负担 增加 会 导致 其 他 请 求 响应 变 慢 ， 响 应 变 慢 又 会 导致 用 户 不 断 尝试 刷新 页 面 ， 结 果 让 情 
况 变 得 更 加 精 糕 。 一 旦 某 个 环节 出 现 了 问题 ， 就 会 像 “ 多 米 诺 骨牌 ”一 样 产 生 连 锁 反 应 ， 这 样 
的 情况 不 算 少 见 。 











3. 分 配 不 均衡 


用 Apache 或 nginx 作为 反 向 代理 "， 对 多 个 Thin 服务 器 进行 请 求 分 配 的 情况 下 ， 请 求 会 由 
前 端 服务 需 按 顺 序 转 发 给 下 属 的 Thin 服务 需 。 这 种 形态 很 像 是 上 层 服务 器 对 下 层 的 ”发 号 施 令 ”， 
此 又 被 称 为 推 模式 ( push model )。 


























Q(z 反 向 代理 (reverse proxy ) 是 指 将 代理 服务 器 配置 在 Web 服务 器 一 侧 的 网 络 中 ,实现 Web 服务 器 的 缓存 .安全 性 、 
负载 均衡 等 功能 的 技术 ， 也 可 以 指 配 置 了 这 种 技术 的 服务 器 本 身 。( 原 书 注 ) 
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一 般 来 说 ， 在 推 模式 下 ，HTTP 服务 器 将 请 求 推送 给 下 属 服务 器 时 ， 并 不 知道 目标 服务 器 
的 状态 。 原 则 上 说 ，HTTP 服务 器 只 是 按 顺序 依次 将 请 求 转发 给 下 属 各 服务 器 而 已 。 

然而 ， 当 请 求 转发 目标 的 服务 器 由 于 某 些 原因 没有 完成 对 前 一 个 请 求 的 处 理 时 ， 被 分 配给 
这 个 忙碌 服务 器 的 请 求 就 只 能 等 待 ， 而 且 前 一 个 请 求 也 不 知道 什么 时 候 才 能 处 理 完 毕 ， 只 能 自 
认 倒 考 了 。 

4. 重启 缓慢 

















像 上 面 所 说 的 情况 ,一旦 对 请 求 的 处 理发 生 延 迟 ， 负 面 影 响 就 会 迅速 波及 到 很 大 的 范围 。 
当 由 于 某 些 原因 导致 处 理 消耗 的 时 间 过 长 时 ， 必 须 迅 速 对 服务 器 进行 重启 。 虽 然 Thin 自 带 超时 
机 制 ， 但 对 于 内 存 开销 ， 以 及 基于 CPU 时 间 进 行 服务 器 状态 监控 ， 需 要 通过 Monit、God 等 监 
控 程序 来 完成 。 


这 些 程序 会 监控 服务 器 进程 ， 当 发 现 问 题 时 将 进程 强制 停止 并 重新 启动 ， 但 即便 如 此 ， 重 
局 服务 依然 不 是 一 件 简 单 的 事 。 当 监控 程序 注意 到 请 求 处 理 的 延迟 时 ， 马 上 重启 服务 器 进程 ， 
这 时 ， 框 架 和 应 用 程序 的 代码 需要 全 部 重新 加 载 ， 恢 复 到 可 以 进行 请 求 处 理 的 状态 至 少 需要 几 
秒 钟 的 时 间 。 而 在 这 段 时 间 中 ， 如 果 有 哪个 倒霉 的 请 求 被 分 配 到 这 个 正在 重启 的 服务 器 进程 ， 
就 又 不 得 不 进行 长 时 间 的 等 待 了 。 


5. 部 署 缓慢 
































当 需 要 对 Web 应 用 程序 进行 升级 时 ， 就 必须 重启 目前 正在 运行 的 所 有 应 用 程序 服务 器 。 正 
如 刚才 所 讲 到 的 ， 仅 仅 是 重启 多 个 服务 器 进程 中 的 一 个 ， 就 会 丈 及 到 一 些 不 太 走 运 的 请 求 ， 如 
果 重 启 所 有 的 服务 器 进程 的 话 ， 影 响 就 会 更 大 。 哪 怕 Web 应 用 整体 仅仅 停止 响应 10 秒 钟 ， 对 
于 访问 量 很 大 的 网 站 来 说 ， 也 会 之 来 超 乎 想象 的 损失 。 

有 一 种 说 法 指出 ， 对 于 网 站 从 开始 访问 到 显示 出 网 页 之 间 的 等 待 时 间 ， 一 般 用 户 平均 可 以 
接受 的 极限 为 4 秒 。 由 于 这 个 时 间 是 数据 传输 的 时 间 和 浏览 器 泻 染 HTML 时 间 的 总 和 ， 因 此 
Web 应 用 程序 用 于 处 理 请 求 的 时 间 应 尽量 控制 在 3 秒 以 内 。 

如 果 上 述说 法 成 立 的 话 ， 那 么 目前 这 种 在 前 端 配置 一 个 反 向 代理 ， 并 将 请 求 推送 给 下 属 服 
务 器 的 架构 ， 虽 然 平 常 没有 问题 ， 但 一 旦 发 生 问题 ， 其 负面 影响 就 很 容易 迅速 扩大 ， 这 的 确 可 
以 说 是 一 个 缺点 。 
































于 是 我 们 下 面 要 介绍 的 ， 就 是 一 个 面向 UNIX 的 Rack HTTP 服务 器 一 一 Unicorn。Unicorn 
是 以 解决 上 述 问 题 为 目标 而 开发 的 高 速 HTTP 服务 器 。 之 所 以 说 是 “面向 UNIX” 的 ， 是 因 
为 Unicorn 使 用 了 UNIX 系 操 作 系 统 所 提供 的 fork 系统 调用 以 及 UNIX 域 套 接 字 ， 因 此 无 法 在 
Windows 上 工作 。 
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4.5 Rack 与 Unicorn 











仿 Unicorn 的 架构 
Unicorn 系统 架构 如 图 6 所 示 。 这 张 图 上 使 用 的 是 庆 户 端 (浏览 器 ) 
Apache， 换 成 nginx 也 是 一 样 的 。 EEEE 


Unicorn 和 图 5 中 采用 的 Thin 在 架构 上 的 区 别 在 于 : 


互联 网 
| 





Apache 只 需要 通过 UNIX 域 套 接 字 和 单一 的 Master 进 Apache 
行 通信 。 





在 采用 Thin 的 架构 中 ，Apache 负责 负载 均衡 ,为 -人 
下 属 各 服务 需 分 配 请 求 ， 而 在 采用 Unicor 的 架构 中 ， 


Aiaelie 需要 和 一 个 称 为 Master 的 进程 进行 通信 和 即 可 。 Slave Slave Slave Slave 








这 种 通信 和 是 通过 UNIX 域 套 接 字 来 完成 的 。 上 


} J 


一 般 的 套 接 字 都 是 通过 主机 名 和 端口 号 来 指定 通信 
对 象 ， 而 UNIX 域 套 接 字 则 是 通过 路 径 来 指定 的 。 服 务 
恬 问 (数据 的 接收 方 ) 通过 指定 一 个 路 径 来 创建 UNIX 域 套 接 字 时 ， 





图 6 Web 


























个 特殊 的 文件 。 开 始 通信 的 一 方 只 要 像 一 般 文件 一 样 写 和 人 数据 ， 在 接收 方 看 来 就 像 是 在 通过 套 





接 字 来 进行 通信 一 样 。 
UNIX 域 套 接 字 具有 一 些 方便 的 特性 : 中 客户 端 可 以 像 文件 一 样 





应 用 程序 架构 
在 指定 的 路 径 就 会 生成 一 











来 进行 读 写 操作 ; 包 进 程 


之 间 不 具备 父子 关系 也 可 以 进行 通信 。 不 过 它 也 有 缺点 ,由 于 通信 对 象 的 指定 是 采用 路 径 的 形式 ， 

















因此 只 能 用 于 同一 台 主 机 上 的 进程 间 通 信 。 


然而 ， 对 于 多 台 主 机 的 分 布 式 环境 ， 也 有 通过 Unicorn 进行 负载 
也 可 以 用 TCP 套 接 字 来 代 奉 UNIX 域 套 接 字 ， 虽 然 性 能 会 有 一 定 的 下 





均衡 的 需求 ， 这 种 情况 下 
降 。 





由 Apache 转发 给 Unicorn-Master 的 请 求 ， 会 转发 给 由 Master 通过 fork 系统 调用 启动 的 


Slave， 而 实际 的 处 理会 在 Slave 中 完成 。 然 后 ，Master 会 在 Slave 人 处 型 
Apache。 





饼 Unicorn 的 解决 方案 


完成 之 后 ， 将 啊 应 转发 给 





不 过 ， 这 样 的 机 制 如 何 解决 Thin 等 所 遇 到 的 问题 呢 ? 对 于 上 面 提 到 的 那 5 个 问题 ， 我 们 逐 


一 来 看 一 看 。 
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1. 响应 缓慢 


Web 应 用 响应 慢 ， 本 质 上 说 还 是 应 用 自身 的 问题 ， 因 此 无 法 保证 一 定 能 够 避免 。 对 于 服务 
器 来 说 ， 重 要 的 是 ， 当 问题 出 现时 如 何 避 免 波及 到 其 他 无 关 的 请 求 。 

在 简单 的 推 模式 中 ， 转 发 请 求 的 时 候 ， 并 不 会 向 被 分 配 到 请 求 的 服务 器 确认 其 是 否 已 经 完 
成 对 上 一 个 请 求 的 处 理 ， 因 此 导致 对 其 他 无 关 请 求 的 处 理发 生 延 迟 。 

















相对 地 ， 在 Unicorn 中 ， 完 成 处 理 的 Slave 会 主动 去 获取 请 求 ， 即 拉 模 式 (pull model )， 
此 从 原理 上 说 ， 不 会 发 生 某 个 请 求 被 卡 死 在 一 个 忙碌 的 服务 器 进程 中 的 情况 。 








不 过 ， 即 便 是 在 拉 模 式 下 ， 也 并 非 完 全 不 存在 请 求 等 待 的 问题 。 当 访问 量 超 出 了 Slave 的 
绝对 处 理 能 力 时 ， 由 于 没有 空闲 的 Slave 能 够 向 Master 索取 请 求 ， 于 是 新 来 的 请 求 便 不 得 不 在 
Master 中 进行 等 待 了 。 

如 果 由 于 某 种 原因 导致 Slave 完全 停止 运行 的 情况 下 ， 由 于 可 用 的 Slave 少 了 一 个 ， 整 体 的 


处 理 能 力也 就 随 之 下 降 了 。 在 Unicorm 中 ， 对 于 这 样 的 情况 所 采取 的 措施 是 ， 当 发 现 某 个 Slave 
的 处 理 超出 规定 时 间 则 强制 重启 该 Slave。 








2. 内 存 开销 


和 响应 缓慢 的 问题 一 样 ， 内 存 的 消耗 也 会 影响 到 其 他 的 请 求 。 因 此 ， 当 发 生 问题 时 ， 最 重 
要 的 是 如 何在 不 影响 其 他 请 求 的 前 提 下 完成 重启 。 由 于 Unicorn 可 以 快速 完成 对 Slave 的 重启 ， 
因此 在 可 以 比较 轻松 地 应 对 内 存 消耗 的 问题 ， 理 由 我 们 稍 后 再 介绍 。 





3. 分 配 不 均 


正如 之 前 所 讲 过 的 ， 在 采用 拉 模 式 的 Unicorn 中 ， 不 会 发 生 将 请 求 分 配给 不 可 用 的 服务 器 
进程 的 问题 。 在 Unicorn 中 , 来 自 Apache 的 请 求 会 通过 UNIX 域 套 接 字 传递 给 单一 的 Unicorn- 
Master， 而 下 属 的 Slave 会 在 自己 的 请 求 处 理 完成 之 后 向 Master 索取 下 一 个 请 求 。 综 上 所 述 , 在 
Unicorn 中 不 会 发 生 分 配 不 均 的 问题 。 














4. 重启 缓慢 








采用 拉 模 式 来 避免 分 配 不 均 是 Unicorn 的 一 大 优点 ， 而 男 一 大 优点 就 是 它 能 够 快速 重启 。 





Unicorn 对 Slave 进行 重启 时 有 两 个 有 利 因素 。 第 一 ， 由 于 采用 了 拉 模 式 ， 因 此 即便 重启 过 
程 中 某 个 Slave 无 法 工作 ， 也 不 用 担心 会 有 任何 请 求 分 配 到 该 Slave 上 ， 这 样 一 来 ， 整 体 上 来 看 
就 不 会 发 生 处 理 的 停 沾 。 
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4.5 Rack 与 Unicorn 


第 二 ，Unicorn 在 Slave 的 启动 方法 上 很 有 讲究 ， 使 得 实际 重启 所 花费 的 时 间 因 此 得 以 大 大 
缩短 。 





当 由 于 超时 、 内 存 开销 过 大 等 原因 被 监控 程序 强制 终止 ， 或 者 由 于 其 他 原因 导致 Slave 进 
程 停 止 时 , Master 会 注意 到 Slave 进程 停止 工作 , 并 立即 通过 fork 系统 调用 创建 自身 进程 的 副本 ， 
并 使 其 作为 新 Slave 进程 来 启动 。 由 于 Unicorn-Master 在 最 开始 启动 时 就 已 经 载 人 了 包括 框架 和 
应 用 程序 在 内 的 全 部 代码 ， 因 此 在 启动 Slave 时 只 需要 调用 fork 系统 调用 ， 并 将 Slave 用 的 处 理 
切换 到 子 进程 中 就 可 以 了 。 

















在 最 近 的 UNIX 系 操作 系统 中 ， 都 具备 了 “Copy-on-Write”( 写 时 复制 ) "功能 ， 从 而 不 需 
要 在 复制 进程 的 同时 复制 内 存 数据 。 只 需要 在 内 核 中 重新 分 配 一 个 表示 进程 的 结构 体 ， 该 进程 
所 分 配 的 内 存 空 间 就 可 以 与 调用 fork 系统 调用 的 父 进程 实现 共享 。 随 着 进程 的 执行 ， 当 实际 发 
生 对 内 存 数据 的 改写 时 ， 仅 将 发 生 改 写 的 内 存 页 进行 复制 ， 也 就 是 说 ， 对 内 存 的 复制 是 随 着 进 
程 执 行 的 过 程 而 循序 渐进 的 ， 这 样 一 来 ， 基 本 上 就 可 以 避免 因 内 存 复制 的 延迟 导致 的 Slave 启 
动 开销 。 











Thin 等 应 用 程序 服务 器 的 重启 过 程 则 更 为 复杂 。 首 先 ， 需要 启动 Ruby 解释 器 ， 然 后 还 要 
重新 载 入 框架 和 应 用 程序 代码 。 相 比 之 下 , 运用 了 Unicorm 系统 中 的 Slave 的 重启 时 间 要 短 得 多 ， 
这 样 一 来 ， 就 可 以 毫 不 犹豫 地 重启 发 生 问 题 的 Slave。 此 外 ， 由 于 恢复 工作 可 以 快速 完成 ， 也 可 
以 避免 系统 整体 响应 产生 延迟 。 














5. 部 署 缓慢 


Slave 重启 的 速度 很 快 , 也 就 意味 着 需要 服务 需 整 体重 启 的 部 署 工 作 也 可 以 快速 完成 。 此 外 ， 
在 Unicorn 中 ， 针 对 缩短 部 署 时 间 还 进行 了 其 他 一 些 优化 。 当 Unicorn-Master 进程 收 到 USR2 信 
号 ( 稍 后 详 述 ) 时 ，Master 会 进行 下 述 操作 步骤: 














(1) 启动 新 Master 


Master 在 收 到 USR2 信号 后 ， 会 启动 Ruby 解释 器， 运行 一 个 新 Master 进程 。 





(2) 重新 加 载 





新 Master 载 人 框架 和 应 用 程序 代码 。 这 个 过 程 和 Thin 的 重启 一 样 ， 需 要 消耗 一 定 的 时 间 。 
但 在 这 个 过 程 中 ， 旧 Master 依然 在 工作 ， 因 此 没有 任何 问题 。 

















(QD Copy-on-Write: 是 指 在 创建 子 进程 时 不 复制 父 进程 的 内 存 空 间 ， 而 是 当 内 存 数 据 发 生 写 人 时 再 进行 复制 的 机 制 。 
( 原 书 注 ) 
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(3) 启动 Slave 























以 提供 服务 了 。 


当 新 Master 启动 第 一 个 Slave 时 ,该 Slave 如 果 检 测 到 存在 | 


信和 号， 命令 旧 Master 结束 进程 。 














新 Master 通过 fork 系统 调用 启动 Slave， 这 样 一 来 一 个 新 版 本 的 Web 应 用 就 准备 完毕 ， 可 


日 Master, 则 对 其 进程 发 送 “QUIT” 


然后 ， 新 Master 开始 运行 新 版 本 的 应 用 程序 。 此 时 ， 旧 Master 依然 存在 ， 但 服务 的 切换 工 











作 本 身 已 经 完成 了 。 


(4) 旧 Master 结束 


收 到 QUIT 信和 号 的 旧 Master 会 停止 接受 请 求 ， 并 对 Slave 发 出 停止 命令 。 旧 Slave 继续 处 理 
现存 的 请 求 ， 并 在 处 理 完毕 后 结束 运行 。 当 确认 所 有 Slave 结束 后 ， 旧 Master 本 身 也 结束 运行 。 
到 此 为 止 ，Unicorn 整体 重启 过 程 就 完成 了 ， 而 服务 停止 的 时 间 为 零 。 











表 2 UNIX 信 号 一 览 表 ( 具有 代表 性 的 ) 





在 Unicorn 重启 的 部 分 我 们 提 到 了 “信号 ” 
这 个 概念 。 对 于 UNIX 系 操作 系统 不 太 了 解 的 
读者 可 能 看 不 明白 ， 信 和 号 也 是 UNIX 中 进程 间 
通信 的 手段 之 一 ， 但 信号 只 是 用 于 传达 某 种 事 
件 发 生 的 通知 而 已 ， 并 不 能 随 附 其 他 数据 。 




















言 号 的 种 类 如 表 2 所 示 ， 用 kill 命令 可 以 
发 送 给 进程 。 








Ski QUIl < 有 RID> 

当 kill 命令 中 没有 指定 信号 名 时 ， 则 默认 
发 送 INT 信和 号。 在 程序 中 则 可 以 使 用 kill 系统 
调用 来 发 送信 号 ，Ruby 中 也 有 用 于 调用 kill 
系统 调用 的 Process.kill 方法 。 























这 些 信 号 根据 各 自 的 目的 都 设 有 默认 的 动 
作 ， 默 认 动 作 根据 不 同 的 信号 分 为 Term ( 进 
程 结束 )、Ign ( 忽略 信号 )、Core ( 内 核 转 
储 )、Stop ( 进程 暂停 )、Cont ( 进程 恢复 ) 5 
种 。 如 果 程 序 对 于 信号 配置 了 专用 的 处 理 过 程 

















































































































名 称 功 能 默认 动作 
HUP 挂 起 Term 
INT 键盘 中 断 Term 
QUIT 键盘 终止 Core 
ILL 非法 命令 Core 
ABRT 程序 的 abort Core 
FPE 浮 点 数 异 常 Core 
KK 于 LL 强制 结束 (不 可 捕获 ) Term 
SEGV 非法 内 存 访问 Core 
BUS 总 线 错误 Core 
Bin 向 男 一 端 无 连接 的 管道 写 emi 

入 数据 

ALRM 计时 器 信号 Term 
TERM 结束 信号 Term 
USR1 用 户 定义 信号 1 Term 
USR2 3 户 定义 信号 2 Term 
CHLD 子 进程 暂停 或 结束 Ign 

STOP 进程 暂停 (不 可 捕获 ) Stop 
CONT 进程 恢复 Cont 
TSTP 来 自 tty 的 stop Stop 
TTIN 后 台 tty 输 入 Stop 
TTOU 后 台 tty 输 出 Stop 
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( handler )， 则 可 以 对 这 些 信号 进行 特殊 处 置 。 不 过 ，KILL 信号 和 STOP 信号 是 无 法 改变 处 理 六 
程 的 ， 因 此 即便 因 某 个 软件 中 配置 了 特殊 的 处 理 过 程 而 无 法 通过 TERM 信号 来 结束 ， 也 可 以 3 


过 发 送 KILL 信号 来 强制 结 





信号 原本 是 为 特定 状况 下 对 操作 系统 和 进程 进行 通 





Ctrl+C， 则 会 对 当前 运行 中 的 进程 发 送 一 个 SIGINT。 





4.5 Rack 与 Unicorn 





[ei 





Ea 





知 而 设计 的 。 例 如 ， 在 终端 窗口 中 按 下 


然而 ,信号 不 光 可 以 用 来 发 送 系 统 通知 ,也 经 常用 来 从 外 部 向 进程 发 送 命 令 。 在 这 些 信号 中 ， 
已 经 为 用 户 准 备 了 像 USR1 和 USR2 这 两 种 可 自 定义 的 信号 。 


Unicorn 中 也 充分 运 月 





\ 





了 信号 机 制 。 刚 才 我 们 已 经 讲 到 过 ， 向 Slave 发 送 QUIT 信号 可 以 使 
结束 。IMaster/Slave 对 于 各 个 信号 的 响应 方式 如 表 3 所 示 ， 其 中 有 一 些 信号 的 功能 看 起 来 被 修 


改 得 面目 全 非 ( 比如 TTIN )， 这 也 算是 “UNIX 流派 ”所 特有 的 风格 吧 。 


表 3 Unicorn 的 信和 号 响应 



























































Master 
信 号 动 作 
HUP 重新 读 取 配置 文件 ， 重 新 载 人 程序 
INT/TERM 立刻 停止 所 有 Slave 
QUIT 向 所 有 Slave 发 送 QUIT 信 和 号， 等待 请 求 处 理 完毕 后 结束 
USR1 重新 打开 日 志 
USR2 系统 重启 。 重 启 完成 后 当前 Master 会 收 到 QUIT 信和 号 
TTIN 增加 一 个 Slave 
TTOU 减少 一 个 Slave 
Slave 
信 号 2 翅 国 有 作 
INT/TERM 立即 停止 
QUIT 当前 请 求 处 理 完毕 后 结束 
USR1 重新 打开 日 志 














信号 还 可 以 通过 Shell 或 者 其 他 程序 来 发 送 ， 因 此 ， 编 写 一 个 用 于 从 外 部 重启 Unicorn 的 脚 





本 也 是 很 容易 的 。 


你 性 能 








在 http://github.com/blog/517-unicorn 专栏 中 ， 对 Unicorn 的 性 能 与 Mongrel 进行 了 比较 。 根 




















据 这 篇 评测 ， 无 调 优 默认 状态 下 的 Unicorn， 性 能 已 经 稍 优 于 Mongrel 了 。 尽 管 Thin 比 Mongrel 
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的 性 能 更 好 一 些 ， 但 Unicorn 决 不 会 甘 拜 下 风 的 。 





考虑 到 Unicorn 几乎 全 部 是 用 Ruby 编写 的 ( 除 HTTP 报头 解析 器 外 ) 这 一 点 ， 可 以 说 是 
实现 了 非常 优秀 的 性 能 。 此 外 ， 从 刚才 所 介绍 的 Unicorn 的 特点 来 看 ， 在 大 多 数 情况 下 ， 用 
Unicorn 来 替代 Mongrel 和 Thin 还 是 有 一 定好 处 的 。 








不 过 ，Unicorn 也 并 非 万 能 。Unicorn 只 适合 每 个 请 求 处 理 时 间 很 短 的 应 用 ， 而 对 于 应 用 程 
序 本 身 来 说 ， 在 外 部 ( 如 数据 库 查 询 等 ) 消耗 更 多 时 间 的 情况 ， 则 不 是 很 适合 。 





对 于 Unicorn 来 说 ， 最 火 手 的 莫 过 于 像 Comet "这 种 ， 服 务 器 端 基本 处 于 待机 状态 ， 根 据 状 
况 变化 推送 响应 的 应 用 了 。 在 Unicorn 中 ， 由 于 每 个 请 求 需要 由 一 个 进程 来 处 理 ， 这 样 会 造成 
Slave 数量 不 足 ， 无 法 满足 请 求 的 处 理 ， 最 终 导 致 应 用 程序 整体 卡 死 。 对 于 这 样 的 应 用 程序 ， 应 
该 使 用 其 他 的 一 些 技术 ， 使 得 通过 少量 的 资源 就 能 够 接受 大 量 的 连接 。 





























为 了 弥补 Unicorn 的 这 些 缺 点 , 又 出 现 了 一 个 名 叫 “Rainbows!”2 的 项 目 。 在 Rainbows! 中 ， 
可 以 对 N 个 进程 分 配 M 个 请 求 ， 从 而 缓和 大 量 的 连接 数 和 有 限 的 进程 数 之 间 的 落差 。 
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综 上 所 述 ，Unicorn 的 关键 是 ， 不 是 由 HTTP 服务 需 来 主动 进行 负载 均衡 ， 而 是 采用 了 完成 
工作 的 Slave 主动 获取 请 求 的 拉 模 式 。 对 于 Slave 之 间 的 任务 分 配 则 通过 操作 系统 的 任务 切换 来 
完成 。 这 个 案例 表明 ， 在 大 多 数 情况 下 ， 与 其 让 身 为 用 户 应 用 的 HTTP 服务 需 来 进行 拙劣 的 任 
务 分 配 ， 还 不 如 将 这 种 工作 交 给 内 核 这 个 资源 管理 的 第 一 负责 人 来 完成 。 











另 一 个 关键 是 对 UNIX 系 操 作 系 统 功 能 的 充分 利用 。 例 如 ， 通 过 fork 系统 调用 以 及 背后 的 
Copy-on-Write 技术 加 速 Slave 的 启动 。UNIX 中 最 近 才 加 入 了 线程 功能 ，Unicorn 则 选择 不 依赖 
线程 ， 而 是 对 已 经 “过 气 ” 的 进程 技术 加 以 最 大 限度 的 充分 利用 。 线 程 由 于 可 以 共享 内 存 空间 ， 
从 性 能 上 来 说 比 进程 要 更 加 有 利 一 些 。 但 反 过 来 说 ， 正 是 因为 内 存 空间 的 共享 ， 使 得 它 容易 引 
发 各 种 问题 。 因 此 Unicorn 很 干脆 地 放弃 了 使 用 线程 的 方法 。 

















如 此 ，Unicorn 充分 利用 了 UNIX 系 操作 系统 长 年 积累 下 来 的 智慧 ， 在 保持 简洁 的 同时 ， 提 
供 了 充分 的 性 能 和 易 管 理性 。 








GD Comet: 一 种 从 Web 服务 器 向 Web 客户 端 发 送 数据 的 推送 (push ) 技术 。( 原 书 注 
@) Rainbows! 项 目 官方 网 站 : http://rainbows.rubyforge.org/。( 原 书 注 ) 
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4.5 Rack 与 Unicorn 


近年 来 ， 由 于 考虑 到 C10K 问题 ( 客户 端 超过 一 万 合 的 问题 ) 而 采用 事件 驱动 模型 等 ， 
Web 应 用 程序 也 在 用 户 应 用 程序 的 水 平 上 变 得 越 来 越 复 杂 。 但 Unicorn 却 通过 将 复杂 的 工作 交 
给 操作 系统 来 完成 ， 从 而 实现 了 简洁 的 架构 。 因 为 事件 处 理 、 任 务 切换 等 等 本 来 就 是 操作 系 
统 所 具备 的 功能 。 当 然 ， 仅 赁 Unicorn 在 客户 端 并 发 连接 的 处 理 上 还 是 存在 极限 ， 如 果 请 求 数 
量 过 大 也 有 可 能 处 理 不 过 来 ， 但 我 们 可 以 使 用 反 向 代理 ， 将 多 个 Unicorn 系统 捆绑 起 来 ， 从 而 
实现 横向 扩展 ( 图 7 )。 














客户 端 ( 浏览 器 ) 


互联 网 
| 


Apache ( 反 向 代理 ) 
Unicorn| iUnicorn| IUnicorn| |Unicorn 
[slave | | Slave Slave | | Slave | 


图 7 Unicorn 的 横向 扩展 






































依 小 结 





Unicorn 最 大 限度 利用 了 UNIX 的 优点 ， 同 时 实现 了 高 性 能 和 易 管 理性 。 此 外 ， 它 采用 了 进 
程 模式 而 非 线程 模式 、 拉 模式 而 非 推 模式 ， 通 过 追求 实现 的 简洁 ， 实 现 了 优秀 的 特性 ， 对 于 这 
一 点 我 非常 喜欢 。 今 后 ， 随 着 服务 器 端 多 任务 处 理 的 需求 不 断 增 加 ， 像 Unicorn 这 样 简洁 的 方 
式 会 越 来 越 体 现 其 价值 。 
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“ 云 计 算 时 代 的 编程 ”后 记 


首先 ， 关 于 HashFold 我 想 做 一 些 补充 。HashFold 从 首次 出 现在 我 的 专题 连载 中 ， 到 
现在 已 经 过 了 两 年 半 的 时 间 ， 它 不 但 没有 引起 广泛 关注 ， 反 倒是 完全 消亡 了 。 对 于 使 用 
Hash 而 非 流 (stream ) 的 这 个 主意 我 觉得 很 有 趣 ， 但 仅 赁 有 趣 还 是 无 法 推动 潮流 的 吧 。 只 
不 过 ， 文 章 的 内 容 本 身 ， 作 为 使 用 线程 和 进程 来 进行 数据 处 理 的 实例 来 说 ， 还 是 有 足够 的 
价值 的 ， 因 此 我 还 是 决定 将 它 放 在 这 本 书 中 。 


现在 反观 HashFold， 在 大 量 数据 的 处 理 上 ， 比 起 运用 Hash 这 样 “容器 ”型 数据 结构 
的 模型 来 说 ， 我 感觉 “ 流 ” 处 理 的 方式 在 印象 上 要 更 好 一 些 。 此 外 ，HashFold 真 的 要 普及 
的 话 ， 最 重要 的 是 需要 像 Hadoop 这 样 对 MapReduce 的 高 性 能 实现 ， 而 仅 赁 纸上谈兵 臣 怕 
是 不 会 有 什么 结果 的 。 


思考 今后 “ 云 计算 时 代 的 编程 ”这 个 话题 的 时 候 ， 本 章 中 介绍 的 内 容 应 该 还 会 作为 
基础 的 技术 继续 存在 下 去 ， 但 程序 员 所 看 到 的 “表面 ”的 抽象 程度 应 该 会 越 来 越 高 。 


今后 ， 随 着 云 计算 的 普及 ， 节 点 的 数量 也 会 不 断 增加 ， 对 每 个 节点 进行 管理 也 几乎 会 
变 成 一 件 不 可 能 完成 的 事情 。 于 是 ， 节 点 就 成 了 性 能 实现 的 一 个 “单位 "”， 而 作为 一 个 单 
个 硬件 的 节点 概念 则 会 逐步 被 忽略 。 在 这 样 的 环境 中 ， 丽 怕 不 会 再 进行 以 显 式 指定 节点 的 
方式 通信 这 样 的 程序 设计 了 吧 。 说 不 定 ， 在 Linda 这 个 系统 中 所 提供 的 “黑板 模型 ”会 再 
次 引起 大 家 的 关注 。 


这 种 模型 是 利用 一 块 共享 的 黑板 ( 称 为 tuple space )， 先 在 上 面 写 入 信息 ， 需 要 的 人 读 
取 上 面 的 信息 并 完成 工作 ， 再 将 结果 写 到 黑板 上 。 在 Ruby 中 也 利用 dRuby 提供 了 一 个 叫 
做 Rinda 的 系统 。 


虽然 Linda 是 20 世纪 80 年 代 的 一 项 古老 的 技术 ,但 借 着 云 计算 的 潮流 ， 在 这 个 领域 
中 也 不 断 要 求 我 们 温 故 而 知 新 吧 。 
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健生 
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SR 


95. 键 - 值 存储 


BY 


NN 


SS 
SS 





键 - 值 存储 (Key-value store ) 是 数据 库 的 一 种 。 在 云 计算 愈 发 流行 的 今天 ， 键 - 值 存储 正 
在 受到 越 来 越 多 的 关注 。 以 关系 型 数据 库 管 理 系统 ( RDBMS ) 为 代表 的 现 有 数据 库 系 统 正 接近 
其 极限 ， 而 键 - 值 存储 则 拥有 超越 这 种 极限 的 可 能 性 。 

键 - 值 存 储 是 通过 由 键 对 象 到 值 对 象 的 映像 来 保存 数据 的 ， 具 体 原理 我 们 稍 后 会 详细 讲解 。 


例如 , 旅游 预订 网 站 “乐天 旅游 ” "中 可 以 显示 “最 近 浏览 过 的 酒店 ”， 其 数据 中 , 键 为 “用 
户 ID”， 值 为 “酒店 ID (多 个 六 ， 即 通过 和 用 户 ID 相关 联 ， 来 保存 用 户 浏览 过 的 酒店 ID。 















































对 于 熟悉 Ruby 的 读者 ， 可 以 将 这 种 方式 理解 为 和 Ruby 内 建 的 Hash 类 具有 相同 的 功能 。 
但 不 同 的 是 ，Hash 只 能 存在 于 内 存 中 ， 而 键 - 值 存储 是 数据 库 ， 因 此 它 具 备 将 数据 永久 保存 下 
来 的 能 力 。 


使 用 键 - 值 存储 方式 的 数据 库 ， 大 多 数 都 在 数据 查找 技术 上 使 用 了 散 列 表 这 种 数据 结构 。 
散 列表 是 通过 调用 散 列 函数 来 生成 由 键 到 散 列 值 (一 个 和 原始 数据 一 一 对 应 的 固定 位 数 的 数值 ) 
的 映射 ， 通 过 散 列 值 来 确定 数据 的 存放 位 置 。 散 列表 中 的 数据 量 无 论 如 何 增 大 ， 其 查找 数据 所 
需 的 时 间 几 乎 是 固定 不 变 的 ， 因 此 是 一 种 非常 适合 大 规模 数据 的 技术 。 


要 讲解 键 - 值 存储 ， 我 们 先 从 它 的 基本 工作 方式 Hash 开始 讲 起 吧 。 
































仿 Hash 类 








一 般 意 义 上 说 ，Hash ( 散 列 表 ) 指 的 是 通过 创建 键 和 值 的 配对 ， 由 键 快速 找到 值 的 一 种 数 
据 结 构 。 


作为 例子 ， 我 们 来 看 一 看 Ruby 的 Hash 类 。 该 类 拥有 147 种 方法 ， 不 过 其 本 质 可 以 通过 下 
列 3 个 方法 来 描述 。 








Qa 乐天 旅游 ( 案 天 卜 屯 穴 几 ): http://travel.rakuten.co.jp/ 
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hash[key] 
hash[key] = value 


hasheeae neg ky | 
hash[key] 方法 用 于 从 Hash 中 取出 并 返回 与 key 对 和 象 相对 应 的 value 对 象 。 当 找 不 到 与 key 
相对 应 的 对 象 时 ， 则 返回 nil。hash[key] = value 方法 用 于 将 与 key 对 象 相 对 应 的 value 对 象 存放 
到 Hash 中 。 当 已 经 存在 与 key 相对 应 的 对 象 时 ， 则 用 value 覆盖 它 。 最 后 是 hash.each 方法 ， 用 
于 按 顺 序 遍历 Hash 中 的 键 - 值 对 。 


也 就 是 说 ，Hash 对 象 是 用 于 保存 key 对 象 到 value 对 象 之 间 对 应 关系 的 数据 结构 。 这 种 数 
据 结构 在 其 他 编程 语言 中 有 时 也 被 称 为 Map (映像 ) 或 者 Dictionary (字典 )。 我 觉得 用 字典 这 
个 概念 来 描述 Hash 的 性 质 挺 合适 的 ， 因 为 字典 就 是 从 一 个 词 条 查询 其 对 应 释义 的 工具 。 






































QDBM 类 











Hash 类 中 的 数据 只 能 存在 于 内 存 中 ， 在 程序 运行 结束 之 后 就 会 消失 。 为 了 超越 进程 的 范围 
保存 数据 ， 可 以 使 用 Ruby 的 “DBM” 类 这 样 的 键 - 值 存储 方式 。 


DBM 类 的 用 法 和 Hash 几乎 一 模 一 样 ， 但 也 有 以 下 这 些 区 别 : 





口 key 和 value 只 能 使 用 字符 串 。 

口 创建 新 DBM 对 象 时 ， 需 要 指定 用 于 存放 数据 的 文件 路 径 名 称 。 

口 数据 会 被 保存 在 文件 中 。 

像 这 样 ， 可 以 超越 进程 的 范围 来 保存 数据 的 特性 ， 在 编程 的 世界 中 被 称 为 “永久 性 ” 


( persistence )。 








仿 数 据 库 的 ACID 特性 





下 面 我 们 来 分 析 一 下 “为 什么 在 云 计算 时 代 键 - 值 存储 模型 会 受到 关注 ”。 











问题 的 关键 在 于 RDBMS 数据 库 所 具备 的 ACID 这 一 性 质 ， 我 们 就 从 这 里 开始 讲 起 。ACID 
是 4 个 单词 首 字母 的 缩写 ， 它 们 分 别 是 ， Atomicity ( 原子 性 )、Consistency ( 一 致 性 )、Isolation 
( 隔离 性 ) 和 Durability (持久 性 )。 


























所 谓 Atomicity， 是 指 对 于 数据 的 操作 只 允许 “全 部 完成 ”或 “完全 未 做 改变 ”这 两 种 状态 
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中 的 一 种 ， 而 不 允许 任何 中 间 状 态 。 因 为 操作 无 法 进一步 进行 分 割 ， 所 以 用 了 “原子 ”这 个 词 
来 表现 。 例 如 ， 银 行 在 进行 汇款 操作 的 时 候 ， 要 从 A 账户 向 B 账户 汇款 1 万 元 ， 假 设 当中 由 于 
某 些 原因 发 生 中 断 ， 这 时 A 账户 已 经 扣 掉 1 万 元 ， 而 B 账户 中 还 没有 存 人 这 1 万 元 ， 这 就 是 一 
个 中 间 状 态 。 





“从 A 账户 余额 中 扣 掉 1 万 元 ”和 “向 B 账户 余额 中 增加 1 万 元 ”这 两 个 操作 ， 如 果 只 完 
成 了 其 中 一 个 的 话 ， 两 个 账户 的 余额 就 会 发 生 矛 盾 。 





所 谓 Consistency, 是 指数 据 库 的 状态 必须 永远 满足 给 定 的 条 件 这 一 性 质 。 例 如 , 当 给 定 “ 存 
款 账 户 余额 永远 为 正 数 ” 这 一 条 件 时 ,“ 取 出 大 于 账户 余额 的 款项 ”这 一 操作 就 无 法 被 执行 。 





所 谓 Isolation， 是 指 保持 原子 性 的 一 系列 操作 的 中 间 状 态 ， 不 能 由 其 他 事务 进行 干涉 这 一 
性 质 ， 由 此 可 以 保持 隔离 性 而 避免 对 其 他 事务 产生 影响 。 








所 谓 Durability， 是 指 当 保持 原子 性 的 一 系列 操作 完成 时 ， 其 结果 会 被 保存 并 且 不 会 丢失 这 
一 性 质 oO 








整体 来 看 ，ACID 非常 重视 数据 的 完整 性 ， 而 RDBMS 正 是 保持 着 这 样 的 ACID 特性 而 不 断 
进化 至 今 的 。 








但 近年 来 ， 要 满足 这 样 的 ACID 特性 却 变 得 越 来 越 困 难 。 这 正 是 RDBMS 的 极限 ， 也 就 是 
我 们 希望 通过 键 - 值 存储 来 克服 的 问题 。 


仿 CAP 原理 


近年 来 ， 人 类 可 以 获得 的 信息 量 持续 增加 ， 如 此 大 量 的 数据 无 法 存放 在 单独 一 块 便 盘 上 ， 
也 无 法 由 单独 一 台 计 算 机 进行 处 理 ， 因 此 通过 多 人 台 计 算 机 的 集合 进行 处 理 成 为 了 必然 的 趋势 。 
这 样 一 来 ， 在 实际 运营 时 就 会 发 生 延 迟 、 故 障 等 问题 。 多 台 计 算 机 之 间 的 通信 需要 通过 网 络 ， 
而 网 络 一 旦 饱和 就 会 产生 延迟 。 








计算 机 的 台数 越 多 ， 机 器 发 生 故 障 的 概率 也 随 之 升 高 。 在 万 台数 量 级 的 数据 中 心中 ， 据 说 
每 天 都 会 有 几 台 计算 机 发 生 故障 。 当 由 于 延迟 、 故 障 等 原因 导致 “计算 机 的 集合 ”之 间 的 连接 
被 切断 ， 原 本 的 集合 就 会 分 裂 成 若干 个 小 的 集合 。 














当 组 成 计算 环境 的 计算 机 数量 达到 几 百 台 以 上 (有 些 情 况 下 甚至 会 达到 万 台 规 模 ) 时 ， 
ACID 特性 就 很 难 满足 ， 换 句 话 说 ，ACID 是 不 可 扩展 的 。 
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对 此 ， 有 人 提出 了 CAP 原理 ， 即 在 大 规模 环境 中 : 


DQ Consistency 
DQ Availability 








(一 致 性 ) 
(可 用 性 ) 


口 Partition Tolerance (分裂 容 忍 性 ) 


这 三 个 性 质 中 ， 只 能 同时 满足 其 中 的 两 个 。 





在 大 规模 数据 库 中 如 何 保持 CAP， 很 难 从 一 般 系统 的 情况 进行 类 推 。 因 为 在 大 规模 系统 中 ， 
延迟 、 故 障 、 分 裂 都 是 家 常 便 饭 。 


在 我 们 平常 所 
数 十 万 全 规模 的 集 





接触 的 数 台 规模 的 网 络 环境 中 ,计算机 的 故障 是 很 少 发 生 的 ， 但 对 于 数 万 、 
群 来 说， 这 样 的 “常识 ”是 无 效 的 。 在 这 样 的 数量 级 上 ， 就 会 像 墨 菲 定律 所 


说 的 一 样 ,“ 只 要 存在 故障 的 可 能 性 就 一 定 会 发 生 故 障 〈 而 且 是 在 最 坏 的 时 间 点 上 》。 





据说 CAP 原理 已 经 通过 数学 方法 得 到 了 证 明 。CAP 中 的 C 是 满足 ACID 的 最 重要 因素 ， 
如 果 CAP 原理 真 的 成 立 的 话 ， 我 们 就 可 以 推 朵 ， 像 RDBMS 这 样 传统 型 数据 库 ， 在 大 规模 环境 


中 无 法 达到 期 望 值 








(或 者 说 无 法 充分 发 挥 其 性 能 )。 这 可 真是 个 难题 。 
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根据 CAP 原型 
如 果 人 舍弃 分 裂 





E,C (一 致 性 ).A (可 用 性 ) 和 P (分 裂 容 忍 性 ) 这 三 者 之 中 ,必须 要 舍弃 一 个 。 





容忍 性 的 话 ， 那 么 只 有 两 个 选择 : 要 么 根本 不 会 发 生 分 裂 ， 要 么 在 发 生 分 裂 





时 能 够 令 其 中 一 方 失 效 。 


根本 不 会 发 生 
果 这 台 计 算 机 发 生 


分 裂 ， 也 就 意味 着 需要 一 台 能 够 处 理 大 规模 数据 的 高 性 能 计算 机 。 而 且 ， 如 
故障 ， 则 意味 着 整个 系统 将 停止 运行 。 现 代 的 数据 规模 靠 一 台 计 算 机 来 处 理 





是 不 可 能 完成 的 ， 因 此 从 可 扩展 性 的 角度 来 看 ， 这 并 不 是 一 个 有 效 的 方案 。 














此 外 ， 当 发 生 分 裂 时 , 例如 大 的 计算 机 集群 被 分 割 为 两 个 小 的 集群 , 要 区 分 哪 一 个 才 是 “ 真 
号” 也 并 非 易 事 。 如 果 准 备 一 台 主 控 机 ， 以 主 控 机 所 在 的 集群 为 “ 真 映 "， 这 的 确 可 以 做 到 。 但 











如 果 主 控 机 发 生 故障 的 话 ， 就 等 于 整个 系统 发 生 了 故障 ， 风 险 也 就 大 大 增加 了 。 


在 分 布 式 系统 


中 , 像 这 样 “ 局 部 故障 会 导致 整体 故障 ”的 要 害 , 被 称 为 Single point of failure 


(单一 故障 点 )， 在 分 布 式 系统 中 是 需要 极力 避免 的 。 
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饼 不 能 舍弃 可 用 性 


那么 ， 伟 弃 A (可用性) 这 个 选择 又 如 何 呢 ? 这 里 的 关键 字 是 “等 待 ”。 也 就 是 说 ， 当 发 生 
分 裂 时 ， 服 务 需 要 停止 并 等 竺 分裂 的 恢复 。 另 外 ， 为 了 保持 一 致 性 ， 也 必须 等 待 所 有 数据 都 确 
实 完成 了 记录 。 




















然而 ， 用 户 到 底 能 够 等 待 多 长 时 间 呢 ? 仅仅 作为 一 个 用 户 的 我 ， 是 相当 没有 耐心 的 ， 等 上 
几 秒 钟 就 开始 感到 烦躁 了 ， 如 果 几 分 钟 都 没有 响应 ,我 想 我 就 青 也 不 会 使 用 这 个 服务 了 。 假 设 
分 裂 和 延迟 的 原因 是 由 于 机 带 故 障 ， 即 便 是 准备 了 完善 的 备份 机 制 ， 想 要 在 几 秒 钟 之 内 恢复 也 
几乎 是 不 可 能 的 。 所 以 结论 就 是 ， 除 非 是 不 怎么 用 得 上 的 服务 ， 否 则 是 不 能 舍弃 可 用 性 的 。 
























































那么 现在 就 只 剩 下 C (一 致 性 ) 了 ， 售 弃 一 致 性 是 否 现实 呢 ? 仔细 想 想 的 话 ， 在 现实 世界 
中 严密 的 一 致 性 几乎 是 不 存在 的 。 例 如 , A 要 送 个 包 应 给 B , 在 现实 世界 中 是 不 可 能 瞬间 送 到 的 。 
A 需要 将 包 右 交 给 物流 公司 ， 然 后 通过 卡车 等 途径 再 送 到 B 的 手 上 ， 这 个 过 程 需要 消耗 一 定 的 
时 间 (无 Atomicity )。 而 且 ， 配 送 中 的 状态 是 可 以 追踪 的 〈 无 Isolation )， 运 输 过 程 中 如 果 发 生 
事故 包 应 也 可 能 会 损坏 (无 Consistency )。 再 有 ， 即 便 对 损坏 和 遗失 上 了 保险 ， 此 次 运输 交易 行 
为 本 身 也 不 可 能 “一 笔 勾 销 ”。 


















































即便 现实 世界 如 此 残酷 ， 我 们 却 还 是 进行 着 各 种 交易 ( 事务 )。 这 样 看 来 ， 即 便 是 在 茶 种 程 
度 上 无 法 满足 一 致 性 的 环境 中 ， 数 据 处 理 也 是 能 够 完成 的 。 例 如 ， 网 上 商城 的 商品 信息 页 面 上 
明明 写 着 “有 货 "， 到 实际 提交 订单 的 时 候 却 变 成 了 “ 缺 货 "， 这 种 事 已 经 是 家 常 便 饭 了 ， 倒 也 
不 会 产生 什么 大 问题 。 和 银行 汇款 不 同 ， 其 实 大 多 数 处 理 都 不 需要 严格 遵循 ACID 特性 。 























在 这 样 的 环境 中 ，BASE 这 样 的 思路 也 许 会 更 加 合适 。BASE 是 下 列 英文 的 缩写 : 


DQ Basically Available 
DQ Soft-state 


口 Eventually consistent 








ACID 无 论 在 任何 情况 下 都 要 保持 严格 的 一 致 性 ， 是 一 种 比较 悲观 的 模式 。 而 实际 上 数 
据 不 一 致 并 不 会 经 常 发 生 ， 因 此 BASE 比较 重视 可 用 性 (Basically Available )， 但 不 追求 状态 
的 严密 性 ( Soft-state )， 且 不 管 过 程 中 的 情况 如 何 ， 只 要 最 终 能 够 达成 一 致 即 可 (Eventually 
consistent )。 这 种 比较 乐观 的 模式 ， 也 许 更 适合 大 规模 系统 。 说 句 题 外 话 ， 一 开始 我 觉得 BASE 
这 个 缩写 似乎 有 点 率 强 ,但 其 实 BASE ( 碱 ) 是 和 ACID ( 酸 ) 相对 的 ， 这 里 面包 含 了 一 个 文字 
游戏 。 
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饼 大 规模 环境 下 的 键 - 值 存储 


好 ， 下 面 该 进入 正题 一 一 键 - 值 存储 了 。 键 - 值 存储 的 一 个 优点 ， 是 可 以 通过 “给 定 键 返 
回 对 应 的 值 ”这 一 简单 的 模式 ， 来 支撑 相当 大 规模 的 数据 。 键 - 值 存 储 之 所 以 适合 大 规模 数据 ， 
除了 使 用 散 列 值 这 一 点 外 ， 还 因为 它 结构 简单 ， 容 易 将 数据 分 布 存储 在 多 台 计 算 机 上 。 

















不 过 ， 在 实际 的 大 规模 键 -~ 值 存 储 系统 中 ， 还 是 存在 一 些 必须 要 注意 的 问题 。 下 面 我 们 通 
过 一 个 大 体 的 框架 ， 来 探讨 一 下 可 扩展 的 键 - 值 存储 架构 。 


分 布 键 - 值 存储 的 基本 架构 并 不 复杂 。 多 台 计 算 机 (节点 ) 组 成 一 个 虚拟 的 圆 环 ， 其 中 每 
个 节点 负责 某 个 范围 的 散 列 值 所 对 应 的 数据 。 











当 应 用 程序 ( 客户 端 程序 ) 对 数据 进行 访问 时 ， 首 先 通 过 作为 键 的 数据 (字符 串 ) 计算 出 
散 列 值 ， 然 后 找到 负责 该 散 
列 值 的 节点 ， 直 接 向 该 节点 
请 求 取出 或 者 存放 数据 即 可 
(图 1)。 怎 么 样 ， 很 简单 吧 ? 
然而 ， 要 实现 一 个 具备 实用 
性 和 可 扩展 性 的 键 - 值 存储 
系统 ， 需 要 注意 的 问题 还 有 
很 多 。 下 面 我 们 来 看 看 这 个 
系统 的 具体 实现 。 











散 列 值 4.2 








应 用 程序 








图 1 键 - 值 存储 架构 示例 
通过 散 列 值 判断 存放 数据 的 节点 并 
直接 进行 访问 。 为 了 提高 可 用 性 ， 

两 端 相 邻 的 节点 都 拥有 数据 的 副本 。 















































先 声明 一 下 ， 这 里 要 讲解 的 可 扩展 键 一 值 存储 架构 ， 基 本 上 是 以 乐天 开发 的 ROMA 为 基础 
的 。 可 扩展 键 - 值 存储 系统 的 实现 有 很 多 种 ， 这 里 所 介绍 的 架构 并 不 是 唯一 一 种 。 另 外 ， 为 了 
讲解 上 方便 ， 这 里 介绍 的 内 容 和 实际 的 ROMA 实现 是 有 一 些 偏 差 的 。 




















信访 问 键 一 值 存储 


我 们 先 来 看 一 个 简单 的 应 用 程序 实现 。 应 用 程序 一 侧 要 执行 的 处 理 并 不 多 ， 大体 上 可 以 分 
成 “初始 化 ”和 “访问 ( 获取、 保存 等 》 两 个 步骤 。 








首先 是 初始 化 。 应 用 程序 在 初始 化 时 ， 需 要 指定 几 个 构成 键 - 值 存 储 系统 的 节点 。 指 定 的 
节点 并 不 需要 是 特殊 节点 ， 只 要 是 参加 键 - 值 存储 系统 组 成 的 节点 都 可 以 。 之 所 以 要 指定 多 个 ， 
是 考虑 到 在 这 其 中 至 少 应 该 有 一 个 是 存活 的 。 
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应 用 程序 按 顺序 访问 指定 的 节点 ， 并 向 第 一 个 应 答 表 1 _ROMA 的 访问 请 求 
的 节点 传达 要 访问 键 - 值 存 储 的 请 求 。 接 着 ， 建 立 连 接 访问 请 求 内 容 

的 节点 向 客户 端 发 送 “ 哪 个 节点 负责 哪个 范围 的 散 列 值 ” 8 eh 

£ 兰 自 | 午 | 条 > 产 站 时 set 设 E 对 应 引 

的 信息 ( 即 路 由 表 )。 收 到 路 由 表 之 后 ， 剩 下 的 访问 操作 ”一 将 0 











就 比较 简单 了 。 根 据 要 获取 的 键 数据 计算 出 散 列 值 ， 然 el 要 刍 存在 时 设置 信 
后 通过 路 由 表 查 询 出 负责 该 散 列 值 的 节点 ， 并 问 该 节点 append 在 当前 值 的 未 尾 附加 
发 送 请 求 。 请 求 的 内 容 分 为 获取 、 保 存 等 很 多 种 类 ， 在 prepend 在 当前 值 的 开头 附加 





















































ROMA 中 所 支持 的 请 求 如 表 1 所 示 。 比 Hash 要 稍微 复杂 delete | 除 键 所 对 应 的 值 
此 呢 ， ine 将 键 所 对 应 的 值 加 1 
del | 除 刍 所 对 应 的 什 


每 次 进行 数据 访问 时 ， 应 用 程序 都 需要 与 负责 各 个 
键 〈 的 散 列 值 ) 的 节点 建立 连接 并 进行 通信 。 这 个 通信 过 程 都 是 通过 套 接 字 来 完成 的 。 通 过 套 
接 字 与 远程 主机 建立 连接 ， 实 际 上 需要 很 大 的 开销 。ROMA 早期 的 原型 中 ， 每 次 都 需要 建立 这 
样 的 连接 ， 于 是 这 个 部 分 就 成 了 瓶 贷 ， 导 致 系统 无 法 发 挥 出 期 望 的 性 能 。 





















































所 幸 ， 一般 情 况 下 ， 对 键 一 值 存储 的 访问 都 具有 局 部 性 ， 也 就 是 说 对 同一 个 键 的 访问 可 能 
会 连续 发 生 。 在 这 样 的 情况 下 ， 池 (pooling ) 技术 就 会 比较 有 效 。 所 谓 池 ， 就 是 指 对 使 用 过 的 
资源 进行 反复 利用 的 技术 。 这 个 案例 中 ， 也 就 是 指 对 一 定数 量 的 套 接 字 连 接 进行 反复 利用 。 特 
别 是 在 访问 具有 局 部 性 的 情况 下 ， 连 接 池 的 效果 是 非常 好 的 。 








在 键 - 值 存 储 的 运用 中 ， 难 免 会 遇 到 由 于 延迟 、 故 障 、 分 裂 等 导致 某 些 节点 无 法 访问 的 状 
况 。 在 ROMA 中 ,各 应 用 程序 都 持 有 一 张 记载 组 成 键 - 值 存 储 系统 所 有 节点 信息 的 表 ( 路 由 表 )， 
并 直接 对 节点 进行 访问 。 在 这 种 类 型 的 系统 中 ， 保 持 路 由 表 处 于 最 新 状态 是 非常 重要 的 。 
































ROMA 会 定期 对 路 由 表 进 行 更 新 。 每 隔 一 段 时 间 ， 客 户 端 会 向 路 由 表 中 的 任意 节点 发 出 获 
取 最 新 路 由 信息 的 请 求 。 


此 外 ， 对 各 个 节点 的 请 求 也 设置 了 超时 时 间 ， 如 果 某 个 节点 未 在 规定 时 间 内 响应 请 求 ， 则 
会 被 从 路 由 表 中 删除 。 








饼 键 - 值 存储 的 节点 处 理 


与 应 用 程序 相 比 ， 组 成 系统 的 节点 的 行为 十 分 复杂 ， 特 别 是 像 ROMA 这 样 不 存在 承担 特殊 
工作 的 主 节 点 ， 且 各 节点 之 间 相互 平等 的 P2P 型 系统 。 


























节点 的 工作 大 体 包括 以 下 内 容 : 


图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


第 S 章 支撑 大 数据 的 数据 存储 技术 


口 应 对 访问 请 求 
口 信息 保存 

口 维护 节点 构成 信 ， 
口 更 新 节点 构成 信 ， 
口 加 入 处 理 

口 终止 处 理 








省 省 





正如 图 1 所 示 ， 系 统 中 的 节点 构成 了 一 个 圆 环 ， 其 中 每 个 节点 的 结构 如 图 2 所 示 。 


来 自 应 用 程序 的 请 求 
相 邻 节点 控制 部 分 相 邻 节点 


存储 器 


图 2 节点 的 结构 









































依存 储 器 


存储 器 〈storage ) 就 是 实际 负责 保存 信息 的 部 分 。 在 ROMA 中 , 存储 器 是 作为 插件 存在 的 ， 
通过 启动 时 的 设置 可 以 对 存储 器 进行 切换 。 目 前 实现 的 存储 顺 包 括 下 列 这 些 : 





口 RH 存储 器 : 将 信息 保存 在 Ruby 的 Hash 对 象 中 的 存储 器 。 这 种 方式 无 法 将 信息 保存 到 
文件 中 ， 因 此 ROMA 整体 运行 停止 后 信息 就 消失 了 。 

口 DBM 存储 器 : 将 信息 保存 在 DBM (实际 上 是 GDBM ) 中 的 存储 器 。 

口 File 存储 器 : 将 信息 保存 在 文件 中 的 存储 器 。 每 个 键 都 会 产生 一 个 独立 的 文件 ， 因 此 磁 
盘 目录 可 以 用 作 索 引 。 

口 SQLite3 存储 器 : 将 信息 保存 在 SQLite3 中 的 存储 器 。SQLite3 是 一 种 很 有 名 的 公有 和 领域 
RDBMS。 

口 TC 存储器: 将 信息 保存 在 Mixi 开发 的 TokyoCabinet 中 的 存储 器 。 是 在 ROMA 实际 运 
用 中 最 为 常用 的 一 种 。 





























各 个 存储 器 都 定义 为 “Roma::Storage::BasicStorage” 的 子 类 ， 其 定义 采用 模板 方法 的 形式 。 
在 运用 中 ，ROMA 可 以 根据 数据 库 所 需 特 性 来 选择 合适 的 存储 器 。 从 实际 来 看 ， 大 多 数 案 例 都 
可 以 用 TC 存储 器 来 解决 。 
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饼 写 入 和 读 取 











当 应 用 程序 发 起 写 和 人 请求 时 ， 在 确认 键 的 散 列 值 属于 本 节点 负责 范围 后 ， 该 节点 会 通过 存 
储 融 对 数据 进行 保存 。 


这 个 时 候 ， 如 果 数 据 只 保存 在 一 个 节点 上 的 话 ， 万 一 这 个 节点 发 生 故 障 ， 数 据 就 会 丢失 。 
为 了 提高 可 用 性 和 分 裂 容 忍 性 ， 写 人 必须 由 多 个 节点 共同 完成 。 








如 果 重 视 响 应 速度 的 话 ， 可 以 在 本 节点 完成 写 人 操作 之 后 ， 马 上 对 请 求 进行 响应 ， 剩 下 的 
写 人 操作 则 可 以 在 后 台 完 成 。 在 ROMA 中 由 于 对 响应 速度 并 不 是 非常 重视 ， 而 是 需要 追求 可 靠 
性 ， 因 此 所 有 的 写 入 操作 是 同步 执行 的 。 不 过 ， 如 果 由 于 某 些 原因 导致 数据 复制 写 入 失败 ， 则 
会 在 后 全 重新 尝试 执行 写 入 操作。 





























如 果 由 于 应 用 程序 所 持 有 的 路 由 表 信 息 过 期 等 原因 ， 导 致 请 求 写 入 的 键 不 属于 本 节点 负责 
的 范围 ， 该 节点 会 将 请 求 转发 出 去 。 








读 取 的 处 理 和 写 和 差不多， 但 由 于 不 需要 出 于 宛 余 的 目的 对 其 他 节点 发 出 请 求 ， 因 此 处 理 
方式 更 加 简单 。 





信 节点 追加 











分 布 式 键 - 值 存 储 系统 的 优点 就 是 运用 的 灵活 性 。 当 数据 过 多 、 访 问 速度 下 降 时 ， 只 要 追 
加 新 的 节点 就 可 以 进行 应 对 。 








追加 新 节点 时 ， 需 要 指定 一 个 现 有 的 节点 作为 人口， 然后 启动 新 的 节点 。 新 局 动 的 节点 和 
间 定 的 现 有 节点 进行 通信 ， 申 请 加 入 环 状 结构 ， 然 后 向 全 体 节 点 发 送 对 节点 间 数 据 分 配 进 行 调 
整 的 请 求 。 刚 刚 启动 的 新 节点 并 不 包含 任何 数据 ( 在 启动 时 显 式 指定 了 已 永久 保存 的 数据 库 的 
情况 除外 )， 随 着 节点 调整 的 进行 ， 数 据 会 逐步 分 配给 新 的 节点 。 











依 故 障 应 对 





作为 可 扩展 的 键 - 值 存储 系统 来 说 ,最 重要 的 恐怕 就 是 对 故障 的 容忍 性 了 。 正如 之 前 讲 过 的 ， 
随 着 组 成 系统 的 计算 机 人 台数 的 增加 ， 发 生 故 障 的 概率 也 会 大 幅度 上 升 。 在 大 规模 系统 中 ， 即 便 
组 成 系统 的 一 部 分 计算 机 发 生 故 障 ， 系 统 也 必须 能 够 继续 运行 。 
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发 生 频率 最 高 的 ， 应 该 是 单 台 计算 机 的 故障 。 由 于 故障 导致 一 台 计 算 机 从 系统 中 消失 ， 这 
样 的 例子 十 分 常见 。 





当 由 于 故障 导致 一 个 节点 失去 响应 时 ， 应 用 程序 会 尝试 访问 其 他 节点 。 在 ROMA 中 ， 由 于 
数据 总 是 存放 在 多 个 节点 中 ， 因 此 通过 路 由 表 就 可 以 找到 其 他 的 替代 节点 。 





男 一 方面 ， 出 现 无 响应 的 节点 ， 就 意味 着 数据 的 元 余 度 下 降 了 。 为 了 避免 这 种 情况 ， 其 他 
节点 需要 将 消失 的 节点 排除 ， 然 后 重新 组 织 节 点 的 结构 ， 根 据 需要 向 相 邻 节点 复制 数据 ， 最 终 
维持 数据 的 平衡 。 新 的 节点 结构 信息 ， 会 通过 定期 更 新 发 送 给 应 用 程序 ， 而 作为 整个 键 - 值 存 
储 来 说 ,会 像 什么 部 没有 发 生 一 般 继续 运行 。 

















比较 麻烦 的 情况 是 ,暂时 “消失 "的 节点 义 复活 了 。 这 种 情况 的 发 生 可 能 是 由 于 网 线 被 拔 出 ( 这 
是 在 运营 工作 中 经 常会 出 现 的 意外 )， 或 者 由 于 网 络 故障 导致 大 规模 网 络 延 迟 ， 这 些 应 该 还 是 比 
较 常 见 的 。 





在 以 简洁 为 信条 的 ROMA 中 ， 遇 到 这 样 的 情况 ， 会 将 已 经 分 离 的 节点 完全 舍弃 。 如 果 出 现 
“复活 ”的 情况 ， 该 节点 需要 作为 一 个 新 节点 重新 加 入 ROMA 系统 。ROMA 会 将 新 加 入 的 节点 
更 新 到 路 由 表 中 ， 并 重新 对 数据 进行 分 配 。 


另 一 种 故障 也 可 能 发 生 ， 那 就 是 多 个 节点 同时 消失 。 在 ROMA 中 ， 和 一 个 节点 消失 的 情 
况 一 样 ， 会 将 这 些 节 点 舍弃 。 在 多 个 节点 同时 消失 的 情况 下 ， 可 能 会 发 生 元 余 备 份 的 数据 同时 
丢失 的 问题 。 要 找 回 丢 失 的 数据 是 不 可 能 的 ， 因 此 系统 就 会 报错 。 在 这 种 情况 下 ， 就 无 法 区 分 
该 数据 是 一 开始 就 不 存在 ， 还 是 由 于 大 量 节 点 消失 而 导致 的 数据 丢失 。 这 当然 会 引发 一 些 问 题 ， 
但 失去 的 东西 总 归 无 法 复 得 ， 也 就 没 必要 进行 任何 特殊 的 处 理 了 。 





























话 虽 如 此 ,但 丢失 数据 这 种 事 ， 作 为 数据 库 来 说 确实 是 个 不 小 的 问题 。 为 了 拯救 数据 ， 
ROMA 中 提供 了 一 个 命令 ， 可 以 将 切断 前 已 经 由 存储 器 写 和 人 文件 的 数据 重新 上 传 回 ROMA。 这 
个 操作 只 是 将 存储 器 数据 读 取 出 来 并 添加 到 ROMA 中 ， 基 本 的 部 分 是 非常 简单 的 。 不 过 ， 如 果 
上 传 的 数据 中 有 一 些 键 已 经 在 ROMA 中 存在 ， 且 它们 所 对 应 的 值 不 相同 的 情况 下 ， 必 须 决 定 选 
用 其 中 某 一 个 值 来 解决 冲突 。 到 底 是 分 离 之 后 ROMA 一 侧 的 数据 被 更 新 了 ， 还 是 对 节点 的 数据 
写 入 由 于 某 些 原因 没有 反映 到 ROMA 一 侧 ? 仅 赁 键 和 值 的 数据 是 无 法 判断 的 。 


























实际 上 ， 在 ROMA 中 对 每 份 数据 都 附加 了 一 个 叫做 “逻辑 时 钟 ”( logical clock ) 的 信息 ， 
它 是 一 种 在 每 次 数据 被 更 新 时 进行 累进 的 计数 器 。 当 上 传 的 数据 和 ROMA 中 已 经 存在 的 数据 发 
生 冲 突 时 ,通过 逻辑 时 钟 就 可 以 判断 应 该 以 哪 一 方 的 数据 为 准 。 














在 各 种 故障 中 ， 还 可 能 发 生 分 裂 的 情况 ， 也 就 是 在 完全 隔绝 的 网 络 中 ， 还 在 继续 独立 工作 
的 意思 。 在 ROMA 中 ， 要 应 对 这 种 故障 ， 只 能 将 分 裂 开 的 ROMA 系统 中 的 其 中 一 个 手动 停止 。 
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虽然 这 种 手段 非常 原始 ， 但 分 裂 这 样 的 故障 并 不 会 经 常 发 生 ， 这 样 的 应 对 应 该 已 经 足够 了 。 从 
分 裂 故 障 中 进行 恢复 ， 和 上 述 情况 一 样 ， 也 是 通过 使 用 从 存储 器 上 传 数据 的 功能 来 完成 的 。 























依 终 止 处 理 


出 人 意料 的 是 ， 在 P2P 型 结构 中 ， 最 麻烦 的 操作 居然 是 终止 。 要 进行 终止 操作 ， 首 先 要 向 
任意 节点 发 送 终止 请 求 ， 然 后， 该 节点 就 自动 成 为 负责 终止 的 主 节 点 ,由 它 对 全 体 节 点 发 送 “ 即 
将 终止 ”的 声明 。 收 到 声明 之 后 ， 各 节点 停止 接受 新 的 请 求 ， 并 在 当前 时 间 点 正在 处 理 的 请 求 
全 部 完成 之 后 ， 对 存储 天 执行 文件 的 写 信 《〈 内存 存储 的 情况 除外 )， 完 成 后 向 终止 主 节 点 发 送 回 
复 。 回 复 完毕 后 ， 结 束 该 节点 的 进程 。 

负责 终止 的 主 节点 在 收 到 全 部 节点 〈 故 障 、 无 应 答 的 节点 除外 ) 的 回复 后 ， 结 束 自 身 进 程 。 
至 此 ，ROMA 系统 的 运行 就 全 部 停止 了 。 
































饼 其 他 机 制 


除了 上 述 讲 到 的 内 容 之 外 ，ROMA 中 还 有 以 下 这 些 机 制 : 





1. 有 效 期 

ROMA 中 的 数据 都 设置 了 有 效 期 ， 因 此 如 果 要 实现 “这 个 数据 仅 在 今天 有 效 ， 明 天 就 需要 
删 掉 ”这 样 的 规则 是 很 容易 的 。 

2. 虚拟 节点 

为 了 让 节点 之 间 因 分 配 调整 而 进行 的 数据 传输 更 加 高 效 ， 系 统 中 采用 了 将 若干 个 键 组 织 
来 形成 “虚拟 节点 ”的 机 制 。 

3. 散 列 树 


如 图 1 所 示 ,，ROMA 使 用 了 环 状 节点 分 布 和 浮 点 小 数 散 列 值 ， 实 际 上 的 算法 使 用 的 是 
SHA-1" 散 列 和 Merkle 散 列 树 ”， 这 种 方式 的 效率 更 高 。 














中 SHA-1 是 SHA 系列 的 成 员 之 一 。SHA ( Secure Hash Algorithm ， 安 全 散 列 算法 ) 是 由 美国 国家 安全 局 设计 的 一 
套 散 列 算 法 ， 是 美国 的 国家 标准 ， 被 广泛 应 用 于 各 种 安全 协议 中 。SHA 系列 包括 SHA-1、SHA-224、SHA-256、 
SHA-384 和 SHA-512 共 5 个 成 员 。 

@ 散 列 树 (hash tree ) 是 用 于 存放 大 量 数据 ( 如 文件 ) 的 散 列 信息 的 一 种 数据 结构 ， 用 于 对 数据 进行 验证 。 这 种 
数据 结构 是 列表 和 链表 的 组 合 ， 是 对 散 列 算法 的 一 种 扩展 。 散 列 树 又 被 称 为 Merkle 树 ， 该 命名 来 源 于 Ralph 
Merkle( 1952 一 ”), 他 是 公 钥 加 密 算法 的 创始 人 之 一 ,同时 也 是 一 位 研究 人 体 冷 冻 技 术 和 分 子 纳米 技术 的 科学 家 。 
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名 性 能 与 应 用 实例 





在 乐天 旅游 的 “最 近 浏 览 过 的 酒店 ”和 乐天 市 场 "的 “浏览 历史 ”等 功能 中 ， 都 采用 了 
ROMA, 每 个 用 户 的 访问 历史 记录 都 是 保存 在 ROMA 中 的 。ROMA 基本 上 都 是 用 Ruby 编写 的 ， 
但 是 它 所 提供 的 性 能 却 足够 支持 日 本 最 大 级 网 站 的 应 用 。 





























依 小 结 


除了 ROMA 之 外 ， 还 有 很 多 键 - 值 存储 系统 的 实现 方式 ， 它 们 也 都 具备 各 自 的 特点 。 由 于 
这 些 项 目 大 多 数 都 是 开源 的 ， 因 此 通过 阅读 源 代码 来 研究 一 下 或 许 也 是 一 件 很 有 意思 的 事 。 














Q@ 乐天 市 场 : http://www.rakuten.co.jp/ 
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说 起 NoSQL， 这 里 并 不 是 指 某 种 数据 库 软 件 叫 这 个 名 字 "。 所 谓 NoSQL， 是 一 个 与 象征 
系 型 数据 库 的 SQL 语言 相对 立 而 出 现 的 名 词 ， 它 是 包括 键 - 值 存 储 在 内 的 所 有 非 关 系 型 数据 库 
的 统称 。 不 过 ， 关 系 型 数据 库 在 很 多 情况 下 还 是 非常 有 效 的 ， 因 此 有 人 批判 NoSQL 这 个 词 中 所 
体现 出 的 “不 再 需要 SQL” 这 个 印象 过 于 强烈 ， 主 张 应 该 将 其 解释 为 “Not Only SQL”( 不 仅 
SQL) (图 1)。 


by 

















[ou 




















NoSQL 数据 库 
关系 型 数据 库 ee 
面向 文档 面向 对 象 
ee [= [= 
一 骨 查 询 [| 一 查询 
Se SQL 以 外 的 语言 ( 如 JavaScript 等 ) 











图 1 NoSOL 数据 库 

















属于 NoSQL 类 的 数据 库 ， 主 要 有 ROMA (Rakuten On-Memory Architecture ) 这 样 的 键 - 值 
存储 型 数据 库 ， 以 及 接 下 来 要 介绍 的 MongoDB 这 样 的 面向 文档 数据 库 等 。 


RDB 的 极限 








在 大 规模 环境 中 ,尤其 是 作为 大 流量 网 站 的 后 台 ,一 般 认 为 关系 型 数据 库 在 性 能 上 存在 极限 ， 
因为 关系 型 数据 库 必须 遵守 ACID 特性 。 





ACID 是 Atomicity ( 原子 性 )、Consistency ( 一 致 性 )、Isolation 〈 隔离 性 ) 和 Durability ( 持 
久 性 ) 这 四 个 单词 首 字 母 的 缩写 。 





人 我 查 了 一 下 ， 真 有 一 种 数据 库 软 件 叫 NoSQL， 不 过 这 次 我 们 的 话题 并 不 是 指 这 个 软件 。( 原 书 注 ) 
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所 谓 Atomicity， 是 指 对 于 数据 的 操作 只 人 允许 “全 部 完成 ”或 “完全 未 做 改变 ”这 两 种 状态 
中 的 一 种 ， 而 不 允许 任何 中 间 状 态 。 因 为 操作 无 法 进一步 进行 分 割 ， 所 以 用 了 “原子 ”这 个 词 
来 表现 。 

所 谓 Consistency， 是 指数 据 库 的 状态 必须 永远 满足 给 定 的 条 件 这 一 性 质 。 当 某 个 事务 无 法 
满足 给 定 条 件 时 ， 其 执行 就 会 被 取消 。 


所 谓 Isolation， 是 指 保 持原 子 性 的 一 系列 操作 的 中 间 状 态 ， 不 能 由 其 他 事务 进行 干涉 这 一 
性 质 ， 由 此 可 以 保持 隔离 性 而 避免 对 其 他 事务 产生 影响 。 


所 谓 Durability， 是 指 当 保持 原子 性 的 一 系列 操作 完成 时 ， 其 结果 会 被 保存 并 且 不 会 丢失 这 
一 性 质 。 


当 数 据 量 和 访问 频率 增加 时 ，ACID 特性 就 成 了 导致 性 能 下 降 的 原因 ， 因 为 随 着 数据 量 和 
访问 频率 的 增加 ， 维 持 ACID 特性 所 带 来 的 开销 就 会 越 来 越 明 显 。 


例如 ， 为 了 保持 数据 的 一 致 性 ， 就 需要 对 访问 进行 并 发 控制 ， 这 样 则 必然 会 导致 能 接受 的 
并 发 访问 数量 下 降 。 如 果 将 数据 库 分 布 到 多 人 台 服 务 器 上 ， 则 为 了 保持 一 致 性 所 带 来 的 通信 开销 
也 会 导致 性 能 下 降 。 

当然 ， 如 果 以 适当 的 方式 将 数据 库 分 割 开 来 ， 从 而 在 控制 访问 频率 和 数据 量 方面 进行 优化 
的 话 ， 在 一 定 程度 上 可 以 应 对 这 个 问题 。 在 大 规模 环境 下 使 用 关系 型 数据 库 ， 一 般 有 水 平分 割 
和 垂直 分 割 两 种 分 割 方式 。 

所 谓 水 平分 割 ， 就 是 将 一 张 表 中 的 各 行 数据 直接 分 割 到 多 个 表 中 。 例 如 ， 对 于 像 mixi” 这 
样 的 社交 化 媒体 (SNS ) 网 站 ， 如 果 将 用 户 编 号 为 奇数 的 用 户 信息 和 编号 为 偶数 的 用 户 信息 分 
别 放 在 两 张 表 中 ， 应 该 会 比较 有 效 。 

相对 地 ， 所 谓 垂直 分 割 就 是 将 一 张 表 中 的 某 些 字段 ( 列 ) 分 离 到 其 他 的 表 中 。 用 SNS 网 站 
举例 的 话 ， 相 当 于 按照 “日 记 ”"、“ 社 区 ”等 功能 来 对 数据 库 进行 分 割 。 

通过 这 样 的 分 割 ， 可 以 对 单独 一 个 关系 型 数据 库 的 访问 量 和 数据 量 进 行 控制 。 但 是 这 样 做 ， 
维护 的 难度 也 随 之 增加 。 














































































































信 NoSQL 数据 库 的 解决 方案 








NoSQL 之 所 以 受到 关注 ， 就 是 因为 它 可 以 成 为 解决 关系 型 数据 库 极 限 问题 的 一 种 方案 。 和 
关系 型 数据 库 相 比 ，NoSQL 数据 库 具有 以 下 优势 (图 2 ): 









































Q@ mixi: http://mixijp/， 是 日 本 最 大 的 社交 网 站 。 
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5.2 NoSQL 


限定 查询 方式 仅 保 持 最 终 的 一 致 性 
Key = Value 开始 ”=e 了 > ”结束 


通过 限定 访问 数据 通过 放宽 一 致 性 保持 


的 方式 来 提高 速度 的 规则 来 提高 速度 








图 2 ”NoSOQL 的 优点 











口 限定 访问 数据 的 方式 


在 大 多 数 NoSQL 数据 库 中 ， 对 数据 访问 的 方式 都 被 限定 为 通过 键 ( 查询 条 件 ) 来 查询 相对 
应 的 值 ( 查询 对 象 数据 ) 这 一 种 。 由 于 存在 这 样 的 限定 ， 就 可 以 实现 高 速 查 询 。 而 且 ， 大 多 数 
NoSQL 数据 库 都 可 以 以 键 为 单位 来 进行 自动 水 平分 割 。 


此 外 ， 也 有 像 memcached 这 样 不 永久 保存 数据 ， 只 是 作为 缓存 来 使 用 的 数据 库 。 这 也 算是 
一 种 对 数据 访问 方式 的 限定 吧 。 


口 放宽 一 致 性 原则 


要 保持 大 规模 数据 库 ， 尤 其 是 分 布 式 数据 库 的 一 致 性 ， 所 需要 的 开销 十 分 显著 。 因 此 大 多 
数 NoSQL 数据 库 都 遵循 “BASE” 这 一 原则 。 


























所 谓 BASE， 是 Basically Available 、Soft-state 和 Eventually consistent 的 缩写 ，ACID 无 论 在 
任何 情况 下 都 要 保持 严格 的 一 致 性 ， 而 实际 上 数据 不 一 致 并 不 会 经 常 改 生 ， 因 此 BASE 比较 重 
视 可 用 性 ( Basically Available ), 但 不 追求 状态 的 严密 性 ( Soft-state ), 且 不 管 过 程 中 的 情况 如 何 ， 
只 要 最 终 能 够 达成 一 致 即 可 ( Eventually consistent )。 











如 果 遵 循 BASE 原则 ， 那 么 用 于 保持 一 致 性 的 开销 就 可 以 得 到 控制 ， 而 标榜 ACID 的 关系 
型 数据 库 则 很 难 做 出 这 样 的 决断 。 





依 形 形 色 色 的 NoSQL 数据 库 








NoSQL 数据 库 只 是 一 个 统称 ,其 中 包含 各 种 各 样 的 数据 库 系统 。 大体 上 ,可 以 分 为 以 下 三 种 : 


口 键 - 值 存 储 数据 库 
口 面向 文档 数据 库 
口 面向 对 象 数据 库 


键 一 值 存储 是 一 种 让 键 和 值 进行 关联 的 简单 数据 库 ， 查 询 方式 基本 上 限定 为 通过 键 来 进行 ， 
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可 以 理解 为 在 关系 型 数据 库 中 只 能 提供 对 “拥有 特定 值 的 记录 ”进行 查询 的 功能 ， 而 且 还 是 有 
限制 的 .在 UNIX 中 从 很 早 就 提供 的 DBM 这 种 简单 数据 库 , 从 分 类 上 来 看 也 可 以 算 作 键 - 值 存储 ， 
但 是 在 NoSQL 这 个 语 境 中 ,所谓 键 - 值 存储 一 般 都 指 的 是 分 布 式 键 -~ 值 存 储 系统 。 符 合 这 样 条 
件 的 键 - 值 存储 数据 库 包 括 “memcached”、“ROMA”、“Redis”"、“TokyoTyrant” 等 。 


所 谓 面 向 文档 数据 库 , 是 指 对 于 键 一 值 存储 中 “ 值 ”的 部 分 ,存储 的 不 是 单纯 的 字符 串 或 数字 ， 
而 是 拥有 结构 的 文档 。 和 单纯 的 键 - 值 存储 不 同 ， 由 于 它 可 以 保存 文档 结构 ， 因 此 可 以 基于 文 
档 内 容 进 行 查询 。 



































举 个 例子 ， 一 张 会 员 清 单 包 括 姓 名 、 地 址 和 电话 号 码 ， 现 在 要 从 中 查找 一 个 名 字 叫 “ 松 
本 ”的 会 员 。 也 许 乍 看 之 下 这 和 关系 型 数据 库 的 应 用 方式 是 一 样 的 ， 但 是 不 同 之 处 在 于 ,在 面 
向 文档 数据 库 中 ， 对 于 存放 会 员 信息 的 文档 来 说 ， 每 个 会 员 的 文档 结构 可 以 是 不 同 的 。 因 此 要 
查找 名 字 叫 “松本 ”的 会 员 ， 实 际 上 相当 于 对 “具备 名 字 这 个 属性 ， 且 该 属性 的 值 为 松本 的 文 
档 ” 进 行 查询 。 这 种 情况 下 的 文档 ， 通 党 采用 的 是 XML ( eXtended Markup Language ) 和 JSON 
( JavaScript Object Notation ) 格式 。 面 向 文档 数据 库 包括 CouchDDB、MongoDB 以 及 各 种 XML 
数据 库 等 。 


所 谓 面向 对 象 数 据 库 ， 是 将 面向 对象 语 言 中 的 对 象 直接 进行 永久 保存 ， 也 就 是 当 计 算 机 断 
电 关 机 之 后 对 象 也 不 会 消失 的 意思 。 键 - 值 存储 和 面向 文档 数据 库 给 人 的 感觉 还 像 是 个 数据 库 ， 
但 大 多 数 面 向 对 象 数据 库 看 起 来 只 是 一 个 将 对 象 进行 永久 保存 的 系统 而 已 。 当 然 ， 面 向 对 象 数 
据 库 也 提供 对 对 象 的 查询 功能 。 面 向 对 象 数据 库 的 例子 有 Db4o、ZopeDB 、ObjectStore 等 。 



























































在 我 跳槽 到 现在 的 公司 之 前 ， 经 常 使 用 ObjectStore。 那 时 候 的 工作 内 容 是 用 C++ 和 
ObjectStore 编写 一 个 CAD 软件 ,真是 怀念 啊 。 说 起 来 ,那个 时 候 ObjectStore 还 不 支持 分 布 式 环境 ， 
对 于 跨越 多 数据 库 创 建 对 象 的 功能 ， 以 及 对 不 再 使 用 的 对 象 进行 回收 的 分 布 式 垃圾 回收 功能 等 ， 
都 是 靠 自 己 的 力量 实现 的 ， 不 知道 现在 是 不 是 有 了 正式 的 支持 呢 。 


从 “ 非 关系 型 数据 库 ” 的 角度 来 看 ， 在 这 里 我 们 暂且 将 面向 对 象 数 据 库 也 算 作 是 NoSQL 的 
一 种 ， 至 少 从 我 ( 有些 过 时 ) 的 经 验 来 说 ， 面 向 对 象 数据 库 的 主要 目的 ， 是 提升 一 些 数据 结构 
比较 复杂 的 小 规模 数据 库 的 访问 速度 ， 而 和 其 他 NoSQL 数据 库 相 比 ， 在 可 扩展 性 方面 并 不 是 很 
擅长 。 
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下 面 我 们 来 介绍 一 下 面向 文档 数据 库 。 所 谓 面 向 文档 数据 库 ， 可 以 理解 为 是 将 JSON、 
XML 这 样 的 文档 直接 进行 数据 库 化 的 形式 ， 其 特点 包括 : 不 需要 schema ( 数据 库 结构 定义 )， 
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支持 由 多 人 台 计 算 机 进行 并 行 处 理 的 “水 平 扩展 ”等 。 





1. CouchDB 


CouchDB 可 以 说 是 面向 文档 数据 库 的 先驱 。CouchDB 的 特点 是 RESTful 接口 以 及 采用 
Erlang 进行 实现 。 




















CouchDB 提供 了 遵循 REST ( Representational State Transfer， 表 征 状 态 转移 ) 模型 的 接口 ， 
因此 ， 即 便 没 有 特殊 的 客户 端 和 库 ， 使 用 HTTP 也 可 以 对 数据 进行 插入 查询、 更 新 和 删除 操作 。 
和 关系 型 数据 库 不 同 ， 其 中 每 条 数据 不 必 拥 有 相同 的 结构 ， 可 以 各 自 拥 有 一 些 自由 的 元 素 。 在 
CouchDB 中 ， 是 通过 JSON 来 对 记录 进行 描述 的 。 








此 外 ,在 CouchDB 中 ， 一 部 分 逻辑 可 以 用 JavaScript 编写 并 插入 到 数据 库 中 ， 从 整体 上 看 ， 
数据 库 和 应 用 程序 之 间 的 区 别 并 不 是 那么 明确 。 大 多 数 人 都 习惯 于 “数据 库 负责 数据 ， 应 用 程 
序 负责 逻辑 ”， 但 此 时 也 许 需要 让 自己 从 这 种 模式 中 跳出 来 。 














出 人 意料 的 是 ， 像 数据 表 的 连结 (Join ) 之 类 ， 在 传统 数据 库 中 通过 SQL 可 以 轻松 完成 的 
查询 ， 在 CouchDB 中 是 做 不 到 的 。 因 此 用 惯 了 传统 关系 型 数据 库 的 人 可 能 会 觉得 四 处 磁 壁 。 但 
是 ， 如 果 能 够 完全 运用 CouchDB 的 功能 ， 应 用 程序 的 设计 可 以 变 得 十 分 简洁 。 


























这 种 数据 库 是 用 Erlang 来 实现 的 ， 这 一 点 也 很 值得 关注 。Erlang 是 一 种 为 并 行 计算 特别 优 
化 过 的 函数 型 语言 ， 分 布 式 计算 和 并 行 计算 方面 的 程序 设计 一 直 是 它 的 强项 ， 因 此 在 CouchDB 
这 样 需要 通过 多 台 机 顺 的 分 布 和 协调 应 对 大 量 访问 的 场景 中 ,应 该 说 能 够 充分 发 挥 Erlang 的 性 能 。 












































2. MongoDB 





和 CouchDB 相 比 ,MongoDB 大 概 更 接近 传统 的 数据 库 。MongoDB 的 宣传 口号 是 Combining 
the best features of document databases, key-value stores, and RDBMSes， 即 要 结合 ( 像 CouchDB 
这 样 的 ) 文档 数据 库 、 键 - 值 存储 数据 库 和 关系 型 数据 库 的 优点 ， 这 真是 个 颇具 挑战 的 目标 。 


MongoDB 除了 不 具备 事务 功能 之 外 ,确实 提供 了 和 关系 型 数据 库 非 常 接近 的 易 用 性 。 此 外 ， 
它 还 为 Ct+、C#、JavaScript、Java、 各 种 JVM 语言 、Perl 、PHP 、Python 、Ruby 等 语言 提供 了 
访问 驱动 程序 ， 这 一 点 也 非常 重要 。 有 了 这 样 的 支持 ， 在 语言 的 选择 上 也 就 没有 什么 顾虑 了 。 















































仿 MongoDB 的 安装 





如 果 你 所 使 用 的 操作 系统 发 行 版 本 中 提供 了 MongoDB 的 软件 包 ， 那 么 安装 就 非常 容易 了 。 
在 Debian 中 该 软件 包 的 名 字 叫 做 mongodb。 
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即便 没有 提供 软件 包 ， 安 装 它 也 并 非 难事 。 只 要 访问 表 1 WongeDB 提 供 预 编译 版 本 
MongoDB 官方 网 站 的 下 载 页 面 : httpy/wwwmongodborg/ 、， eh 
downloads ， 找 到 对 应 的 二 进 制 包 并 下 载 就 可 以 了 。 提 供 官方 Mac OS X64 位 
预 编译 版 本 的 系统 平台 如 表 1 所 示 。 TS 
Windows 32 位 


我 选用 的 是 Linux 32 位 版 本 。 将 下 载 好 的 tar.gz 文件 解压 Windows 64 位 


Solaris x86 


缩 后 ， 其 目录 结构 如 下 : Solaris 64 位 











GNU-AGPL-3.0 (许可 协议 ) 

README (说 明文 件 ) 

THIRD-PARTY-NOTICES (第 三 方 依赖 关系 信息 ) 
bin/( 二进制 文件 ) 

include/ ( 头 文件 ) 

1ib/( 库 文件 ) 

















MongoDB 的 许可 协议 是 GNU-AGPL-3.0。AGPL 这 种 协议 可 能 大 家 没 怎么 听 说 过 ， 它 是 
AFFERO GENERAL PUBLIC LICENSE 的 缩写 ， 简 单 讲 ， 基 本 条 款 和 GPL 是 差不多 的 ， 区 别 只 
有 一 点 ， 就 是 在 该 软件 是 通过 网 络 进行 使 用 的 情况 下 ， 也 需要 提供 源 代 码 。 在 用 于 商业 用 途 的 
情况 下 ， 如 果 不 想 公 开源 代码 ， 貌 似 也 可 以 购买 商用 许可 。 























bin 目录 中 包含 了 MongoDB 的 数据 库 服务 器 、 客 户 端 、 工 具 等 可 执行 文件 。 只 要 将 这 些 文 
件 复制 到 /usr/bin 等 Path 能 搜索 到 的 目录 中 就 可 以 完成 安装 了 。 如 果 需 要 自行 编译 客户 端 和 驱 
动 程序 的 话 ， 还 需要 安装 include 目录 中 的 头 文件 和 lip 目录 中 的 库 文件 。 





























如 果 没 有 和 你 所 使 用 的 操作 系统 或 CPU 相对 应 的 预 编译 版 本 , 则 需要 下 载 源 代码 自行 纺 
不 过 ,MongoDB 所 依赖 的 库 有 很 多 ,准备 起 来 也 有 点 麻烦 .如果 要 在 Ubuntu 下 用 源 代码 进行 纺 
可 以 参考 这 里 的 资料 ( 英文 ): http://www.mongodb.org/display/DOCS/Building+for+Linux。 











售 启 











接 下 来 我 们 需要 用 Ruby 来 访问 MongoDB， 因 此 还 需要 安装 Ruby 的 驱动 程序 。 用 
RubyGems 就 可 以 轻松 完成 安装 。RubyGems 是 为 Ruby 的 各 种 库 和 应 用 程序 设计 的 软件 包 管 
理 系统 ， 使 用 起 来 非常 方便 。 如 果 你 还 没有 安装 RubyGems 的 话 ， 趁 这 个 机 会 赶紧 安装 吧 。 在 
Debian 或 Ubuntu 中 ， 输 入 下 列 命令 进行 安装 : 











$ sudo apt-get install ruby rubygems 


用 RubyGems 来 安装 MongoDB 的 Ruby 驱动 程序 ， 可 以 输入 下 列 命令 : 


$ sudo gem install mongo 
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名 司 动 数据 库 服务 硼 


启动 数据 库 服 务 需 的 命令 是 mongod， 作 为 参数 需要 指定 数据 库存 放 路 径 以 及 mongod 监听 
连接 的 端口 号 ， 默 认 的 端口 号 为 27017。 指 定数 据 库 路 径 的 选项 为 “--dbpath”， 指 定 端口 号 的 选 
项 为 “--port”。 例 如 ， 如 果 创 建 一 个 “/var/db/mongo” 目 录 并 希望 将 数据 库存 放 在 此 处 ， 可 以 用 
下 面 的 命令 来 启动 数据 库 服务 器 (假设 mongod 所 在 的 路 径 能 够 被 Path 找到 ， 如 果 不 能 的 话 则 
需要 指定 绝对 路 径 ): 

















$ sudo mongod --dbpath /var/db/mongo © 





服务 正常 启 动 后 会 显示 “waiting for connections ON morigawa@ubuntu:/tmp/mongodb-linux-i686-1.2.4/bin$ suda ./mongod --dbpath /var/d 


b/mongo 
” 六 栏 一 冬 消 自 屏幕 截 Wed Mar 19 22:15:23 Mongo DB : starting ; pid = 2682 port = 27917 dbpath = /var/ 
port 27017 这 样 条 消息 ( 并 图 )。 db/mongo master = 8 slave = 和 32-bit 


** NOTE: When using MongoDB 32 bit, you are limited to about 2 gigabytes of data 


\ 赣 2 一 十 三 一 办 :/ 1 -bit-~ 
对 MongoDB 进行 操作 需要 使 用 mongo 人 see http://blog.mongodb.org/post/137788967/32-bit-limitations for more 
Wed Mar 19 22:15:23 db version v1.2.4, pdfile version 4.5 


四 2 日 4 已 记 z 、、 LU 
令 。 如 果 为 数据 库 服 务 需 指 定 了 非 默 认 的 端 器 lweg Har 19 22:15:23 git version: 5cf582d3d96b882c499c33e7679b811ccd47f477 
人 入 人 pe Se 会 六 Wed Mar 19 22:15:23 sys info: Linux domU-12-31-39-01-70-B4 2.6.21.7-2.fc8xen #1 
时 nll 人 = Ns 数 SMP Fri Feb 15 12:39:36 EST 2098 i686 B00ST_LI6_VERSION=1_37 
了 了， 则 mongo x 也 需要 指定 port 俏 ° 打 Wed Mar 19 22:15:23 waiting for connections on port 27917 


开 一 个 新 的 终端 控制 台 ， 用 下 列 命 令 来 启动 ”屏幕 截图 1 MongoDB 启动 时 的 样子 


mongo: 












































$ mongo 回 

MongoDB shell version: 1.3.1 
url: test 

connecting to: test 

type "exit" to exit 

type "help"” for help 

> 


这 样 就 连接 成 功 了 。 这 个 命令 可 以 通过 交互 的 方式 对 数据 库 进 行 操作 ， 对 于 学 习 MongoDB 很 
有 帮助 。 此 外 ， 对 于 数据 库 的 小 规模 调整 和 修改 也 十 分 方便 。 





不 过 mongo 命令 没有 提供 行 编辑 功能 ， 如 果 配 合 使 用 支持 行 编辑 功能 的 rlwrap 命令 则 会 更 
加 方便 。 


$ rlwrap mongo © 





























用 上 述 格式 启动 ， 就 可 以 为 mongo 命令 增加 行 编辑 功能 。 这 样 不 仅 能 对 输入 行进 行 编辑 ， 还 可 
以 查询 输入 历史 ， 非 常 方便 。 


在 Debian 和 Ubuntu 中 ， 可 以 用 下 列 命令 来 安装 rlwrap: 


$ sudo apt-get install rlwrap 加 
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仿 MongoDB 的 数据 库 结 构 





MongoDB 的 结构 分 为 数据 库 ( database )、 集 合 (collection )、 文 档 ( document ) 三 层 。 在 
mongo 命令 中 输入 “show dbs” 可 以 显示 当前 连接 的 数据 库 服 务 器 所 管理 的 数据 库 清 单 。 





> Show dbs 器 
admin 
1ocal 








我 们 可 以 看 到 ， 这 台 服 务 器 所 管理 的 数据 库 有 admin 和 local 这 两 个 。 对 数据 库 的 操作 是 针 
对 当前 数据 库 进行 的 。 在 连接 时 显示 的 消息 中 ,“connecting to:” 所 表示 的 就 是 当前 数据 库 。 查 
看 当前 数据 库 可 以 使 用 “db” 命 令 : 























> da 
test 


在 这 里 ， 数 据 库 包 含 若 干 个 集合 ， 而 集合 则 相当 于 关系 型 数据 库 中 “ 表 ” 的 概念 。 关 系 型 


数据 库 中 的 表 ， 都 拥有 各 自 的 结构 定义 (schema )， 结 构 定义 决定 了 表 中 各 行 ( 记录 ) 包含 怎样 
的 数据 , 以 及 这 些 数据 排列 的 顺序 。 因 此 每 条 记录 都 遵循 schema 的 定义 而 具备 完全 相同 的 结构 。 

















但 对 于 无 结构 的 MongoDB 数据 库 来 说 ， 虽 然 集合 中 包含 了 相当 于 记录 的 文档 ， 但 每 一 个 
文档 并 不 必 具 备 相同 的 结构 ， 而 是 能 够 存放 可 以 用 JSON 进行 描述 的 任意 数据 。 一 般 来 说 ， 在 
同一 个 集合 中 倾向 于 保存 结构 相同 的 文档 ,但 MongoDB 对 此 并 非 强制 。 











这 就 意味 着 ， 随 着 应 用 程序 开发 的 进行 ， 对 于 数据 库 中 数据 的 结构 变化 ， 可 以 灵活 地 做 出 
应 对 。 在 Ruby on Rails 的 开发 中 ,一 旦 数据 库 结构 发 生变 化 ， 就 必须 花 很 大 精力 来 编写 数据 迁 
移 脚 本 ， 而 这 样 的 否 差 事 在 MongoDB 中 是 完全 可 以 避免 的 。 























信 数据 的 插入 和 查询 








在 关系 型 数据 库 中 ， 要 创建 新 的 表 ， 需 要 对 表 结 构 进行 明确 的 定义 并 执行 显 式 的 创建 操作 ， 
而 在 更 加 灵活 的 MongoDB 中 则 不 需要 这 么 麻烦 。 在 mongo 命令 中 用 use 命令 可 以 切换 当前 数 
据 库 ， 如 果 use 命令 指定 了 一 个 不 存在 的 数据 库 ， 则 会 自动 创建 一 个 新 数据 库 。 














> use 1inux_mag 日 
Switched to db linux_mag 


而 且 ， 如 果 向 不 存在 的 集合 中 保存 文档 的 话 ， 就 会 自动 创建 一 个 新 的 集合 。 
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5.2 NoSQL 
> db.articles.save({ 器 


.title: "技术 的 剖析 "， 
eae no 














ma a 
;J @ 
其 中 “…” 是 mongo 命令 中 表示 折 行 的 提示 符 。 通 过 这 样 的 命令 ， 我 们 就 向 linux_mag 数据 库 
的 articles 集合 中 插入 了 一 个 新 文档 。 





> Show collections 器 
articles 


system.indexes 





下 面 我 们 来 查询 一 下 这 个 文档 。 查 询 文 档 需 要 使 用 集合 的 find 方法 。 


> ar te ireland 
{ "_id"” : ObjectId("4b960889e4ffd91673c93250"),， "title”: "技术 的 训 析 "， 
ealut ol Mantz 





i 





保存 的 数据 会 被 自动 分 配 一 个 名 为 “ id” 的 











ID。find 方法 还 可 以 指定 查询 条 件 ， 如 : 
>dbeartnelesefnde tau no maz ia 着 加 
{ ws de : 


ObjectId("4b960889e4ffd91673c93250"), "title"™ 
elation ee ma 


: "技术 的 剖析 "， 








如 果 指 定 一 个 JavaScript 对 象 作 为 find 方法 的 参数 ， 则 会 返回 与 其 属性 相 匹配 的 文档 。 在 
这 里 我 们 的 数据 库 中 只 有 一 个 文档 ， 如 果 有 多 个 匹配 的 文档 的 话 ， 自 然 会 返回 多 个 结果 。 


如 果 和 希望 只 返回 一 个 符合 条 




















件 的 文档 ， 则 可 以 用 findOne 方法 来 代替 find 方法 。 


仿 用 JavaScript 进行 查询 








mongo 命令 最 重要 的 一 点 ， 是 可 以 自由 地 运行 JavaScript。mongo 所 接受 的 命令 


命令 ， 除 
help 、exit 等 一 部 分 命令 之 外 ， 其 余 的 都 是 JavaScript 语句 。 甚 至 可 以 说 ，mongo 命令 本 身 就 
一 个 交互 式 的 JavaScript 解释 器 。 刚 才 的 例子 中 出 现 的 : 








Le 


db.articles.find() 


等 写法 ， 正 是 JavaScript 的 方法 调 月 


形式 。 由 于 支持 JavaScript， 因 此 我 们 可 以 自由 地 进行 一 些 
简单 的 计算 ， 将 结果 赋值 给 变量 ， 甚 至 用 for 语句 进行 循环 。 





> 

2 

> pln hellio le 
hello 








下 面 我 们 就 用 JavaScript 来 为 数据 库 填充 一 定 规模 的 数据 。 
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> omevar e00000 
> dD Dementavel Ce 


在 花 了 相当 长 一 段 时 间 之 后 ， 我 们 就 创建 了 一 个 包含 100 万 个 文档 的 bench 集合 。 接 下 来 ， 我 
们 来 试 试看 查询 。 








> db.bench.findOne({j:999999}) 
{ "_id” : ObjectId("4b965ef5ffa07ec509bd338e"), "x" : 4, "j" : 999999 } 


在 我 的 电脑 上 查询 到 这 个 结果 用 了 差不多 1 秒 的 时 间 。 因 为 要 将 100 万 个 文档 全 部 查询 一 人 壳 ， 
所 以 这 个 速度 不 是 很 快 ， 于 是 我 们 来 创建 一 个 索引 。 











> db.bench.ensureIndex({j:1}, {unique: true}) 
这 样 我 们 就 对 j 这 个 成 员 创建 了 一 个 索引 ， 再 查询 一 次 试 试看 。 


> db.bench.findone({j:9999991) 
(LIE 三 0ObJiecede 4b ensfnad0ecs0y be EAI 009009900) 


在 创建 索引 之 前 , 按 下 回 车 键 到 返回 结果 总 觉得 会 卡 一 会 儿 , 现在 则 是 瞬间 就 可 以 得 到 结 
索引 的 效果 是 非常 明显 的 。 








在 mongo 命令 中 ， 可 以 使 用 JavaScript 这 样 一 种 完全 编程 语言 来 对 数据 库 进行 操作 ， 
真是 不 错 。 也 许 是 因为 我 没有 在 工作 中 使 用 过 SQL 的 原因 吧 ， 总 觉得 需要 用 SQL 这 样 一 Re 
完全 语言 来 编写 算法 和 进行 操作 的 关系 型 数据 库 让 我 觉得 不 太 习 惯 ， 相 比 之 下 还 是 MongoDB 
感觉 更 加 亲近 一 些 。 从 我 个 人 的 喜好 来 说 ， 自 然 希 望 在 mongo 命令 中 也 可 以 用 Ruby 来 对 数据 
库 进行 操作 。 话 说 ，2012 年 4 月 ，AvocadoDB "宣布 要 集成 mruby， 这 很 值得 期 待 。 















































匀 高 级 查询 








在 MongoDB 中 ， 使 用 fnd 或 者 findOne 方法 并 指定 对 象 作 为 条 件 时 ， 会 返回 成 员 名 称 和 值 
相 匹 配 的 文档 。 严 格 来 说 ，find 方法 返回 的 是 与 符合 条 件 的 结果 集 相 对 应 的 洲 标 ， 而 findOne 则 
是 仅 返回 第 一 个 找到 的 符合 条 件 的 文档 。 











不 过 ,说 到 查询 ， 可 并 不 都 是 这 么 简单 的 用 法 。 下 面 我 们 通过 将 SQL 查询 转换 为 
MongoDB 查询 的 方式 ， 来 学 习 一 下 MongoDB 的 查询 编写 方法 。 刚 才 出 现 过 的 查询 符合 条 件 记 
录 的 例子 , 用 SQL 来 编写 的 话 应 该 是 下 面 这 样 : 






































GD AvocadoDB 已 于 2012 年 5 月 改名 为 ArangoDB: http://www.arangodb.org/ 
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SELECT * FROM bench 
WHERE x = 4 


这 条 查询 写成 MongoDB 查询 则 是 这 样 : 
> dbaveneh fmol eA) 


如 果 和 希望 只 选 出 特定 的 成 员 (字段 )， 用 SQL 要 写成 : 





SEBEGIINEROMIDenehnnwWHEeRE x 4 
MongoDB 的 话 则 是 : 
> dbabenehe na A rue 


刚才 我 们 的 查询 条 件 都 是 “等 于 ”, 如 果 要 比较 大 小 当然 也 是 可 以 的 。 例 如 ,“x 大 于 等 于 4” 
这 样 的 条 件 ， 用 SQL 查询 可 以 写成 : 


SELECT j FROM bench WHERE x >= 4 
而 MongoDB 的 话 则 是 : 
> benene oA tA 


当 比 较 条 件 不 是 等 于 时 ， 要 像 上 面 这 样 使 用 以 “$” 开 头 的 比较 操作 符 来 表达 。MongoDB 
中 可 以 使 用 的 比较 操作 符 如 表 2 所 示 。 














表 2 ”比较 操作 符 






















































































名 称 语 法 含 义 
$gt {$gt val} 大 于 val 
$1t {S$gt: val} 小 于 val 
$gte {S$gte: val} 大 于 等 于 val 
$lte {$lte: val} 小 于 等 于 val 
$ne {$ne: val} 不 等 于 val 
$in {$in: val} 包含 val 
$nin {$nin: val} 不 包含 val 
$mod {$mod: [n, m]} 除 以 n 的 余数 为 m 
$all {$all: ary} 包含 ary 的 所 有 元 素 
$size {$size: n} 数组 长 度 为 n 
S$exists {$exists: true} 存在 
$exists {$exists: false} 不 存在 
$not {$not: cond} 否定 条 件 
正则 表达 式 / ^foo 等 正则 匹配 
$where {$where: str} os Si 
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我 们 刚才 已 经 讲 过 ,在 find 方法 中 ,返回 的 并 不 是 文档 本 身 ， 而 是 游标 ( cursor )。 当 执行 
的 查询 得 到 多 个 匹配 结果 时 ， 某 些 情况 下 返回 的 结果 数量 可 能 会 超 乎 想象 。 这 时 ， 我 们 可 以 使 
用 count、limit、skip、sort 等 方法 。 








count 方法 可 以 返回 游标 所 关联 的 结果 集 的 大 小 。 


> db.bench.find().count() © 
1000000 


limit 方法 可 以 将 结果 集 的 大 小 限制 为 从 游标 开始 位 置 起 指定 数量 的 文档 (图 3 )。 














skip 方法 可 以 使 游标 跳 过 指定 数量 的 记录 4 图 4 )。 配 合 使 用 limit 和 skip， 就 可 以 像 Google 
搜索 页 面 一 样 ， 轻 松 实现 以 n 个 结果 为 单位 将 结果 进行 分 页 的 操作 。 






































> db.bench.find() . 有 四 | > db.bench.find().skip(10).1imit(10) 
Lid 8 soo0 dnsgl fid aaa was I 8 0D 
1 eid a a 
(1 (oo a A ei 
TT a no Wap a de wi a fi » Wa 8 ds vir 8 13 
[iis vod WV a 4a) te » Wo 8 4d wr a dD 
Cid ge oo Wm 8 do wir 8 B) TY id 5 
人 ie md mim 8 TG 
es A WI By Td y WY 8 Ao wm 8 17D 
{wid 8 sooo War 8 Ao wm 8 Td » TT 8 A wim 8 GD 
4 0 (id » wo 8 4, wo a I ) 
图 3 limit 方法 的 执行 结果 图 4 skip 方法 的 执行 结果 
sort 方法 可 以 按 指定 成 员 对 查询 结果 进行 排序 ( 图 5 )。 

> var c = db.bench.find() 

> sk Dm oe SOL: = 1) 

的 999989 } 

" id" 938 

(本 

(ito ee Me pe ra Me ee ono Moe 

5 

9984 直 

(国王 人 9928 

9982 

9 

(90 

图 5 sort 方法 的 执行 结果 
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这 样 我 们 就 完成 了 按 成 员 j 降序 排列 的 操作 。 和 前 面 的 skip(10).limit(10) 的 结果 相 比 ，j 的 
值 是 不 同 的 。 由 于 sort 方法 是 对 整个 查询 结果 进行 排序 ， 因 此 对 于 查询 结果 来 说 ， 这 些 方法 的 





执行 顺序 和 实际 的 调用 顺序 无 关 ， 总 是 


食 数据 的 更 新 和 删除 














按照 db sort ( skip @) limit 的 顺序 来 执行 。 





只 有 文档 的 插入 和 查询 并 不 能 构成 数据 库 的 完整 功能 ， 我 们 还 需要 进行 更 新 和 删除 。 文 档 
的 插入 我 们 使 用 了 save 方法 ,保存 好 的 文档 会 被 赋予 一 个 _id 成 员 ， 因 此 ， 当 要 保存 的 文档 的 





_id 已 存在 时 ， 就 会 覆盖 相应 id 的 文档 。 








也 就 是 说 ， 用 find 或 findOne 方法 取出 文档 后 ， 对 取出 的 文档 ( JavaScript 对 象 ) 进行 修改 
并 再 次 调用 save( 只 有 _id 成 员 是 不 能 修改 的 ) 的 话 ， 就 会 覆盖 原来 的 文档 。 
































在 MongoDB 中 不 存在 事务 的 概念 ， 因 此 总 是 以 最 后 写 入 的 数据 为 准 。MySQL 在 最 开始 不 
支持 事务 的 时 候 还 是 非常 有 用 的 ， 由 此 可 见 ，Web 应 用 中 的 数据 库 系统 ， 即 便 不 支持 事务 ， 貌 





似 也 不 是 很 大 的 问题 。 











MongoDB 中 虽然 不 支持 事务 ,但 可 以 支持 原子 操作 (atomic operation ) 


和 乐观 并 发 控制 (optimistic concurrency control )。 要 实现 原子 操作 和 乐观 并 发 控制 ， 可 以 使 用 


update 方法 。 





update 所 支持 的 原子 操作 如 表 3 所 示 ， 原 子 操作 的 名 称 都 是 以 “$” 开 头 的 。 例 如 ， 要 将 j 


为 0 的 文档 的 x 值 增加 1， 可 以 写成 下 面 这 样 : 


> dbaDemchaupdate i oO pine st 而 加 





表 3 update 的 原子 操作 






















































































名 称 语 法 功 能 

$inc {$inc: {mem: n}} 对 mem 的 值 加 n 

$set {$set: {mem: val}} 将 mem 的 值 设置 为 val 

S$unset {$unset: {mem: 1}} 删除 mem 

$push {$push: {mem: val}} 在 数组 mem 中 添加 val 

S$pushAll {$pushAll: {mem: ary}} 在 数组 mem 中 添加 ary 的 元 素 

$addToSet {$addToSet: {mem: val}} 当 数 组 mem 中 不 包含 val 时 则 添加 val 

$pop {$pop: {mem: 1}} 除数 组 mem 中 最 后 一 个 元 素 

$pop {$pop: {mem: -1}} 除数 组 mem 中 第 一 个 元 素 

$pull {S$pull: {mem: val}} 从 数组 mem 中 删除 所 有 的 val 

$pullAll {$pullAll: {mem: ary}} 从 数组 mem 中 删除 所 有 ary 中 的 元 素 
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仿 乐 观 并 发 控制 








然而 ， 当 需要 进行 并 发 操作 时 ， 仅 和 赁 原子 操作 还 不 够 。 在 关系 型 数据 库 中 ， 一 般 是 通过 事 








务 的 方式 来 处 理 的 ， 但 MongoDB 中 没有 这 样 的 机 制 。MongoDB 中 进行 并 发 操作 的 步骤 如 下 。 








(1) 通过 查询 获取 文档 。 
(2) 保存 原始 值 。 
(3) 更 新 文档 。 











(4) 将 原始 值 (包含 id ) 作为 第 一 参数 ， 将 更 新 后 的 文档 作为 第 二 参数 ， 调 用 update 方法 。 
如 果 文 档 已 经 被 其 他 并 发 操作 修改 时 ， 则 update 失败 。 





(5) 如 果 update 失败 则 返回 第 (1) 步 重 新 执行 。 








这 样 的 方式 ， 也 就 是 利用 了 update 方法 可 以 进行 原子 更 新 这 一 点 ， 通 过 同时 指定 事务 开始 


时 和 更 新 后 的 值 ， 来 手动 实现 相当 于 关系 型 数据 库 中 事务 处 理 的 功能 。 这 种 方法 的 前 提 ， 是 基 
于 “同一 个 文档 基本 上 不 会 被 同时 修改 ”这 一 预测 ， 也 就 是 一 种 乐观 的 ( 近似 的 ) 事务 机 制 。 

















需要 显 式 创建 数据 的 副本 这 一 点 有 些 麻 烦 ， 但 忽略 这 一 点 的 话 ， 实 际 上 还 是 很 实用 的 。 作 


为 一 个 简单 的 例子 ， 我 们 将 刚才 讲 过 的 $inc 那个 例题 ， 用 乐观 并 发 处 理 进 行 实现 ， 如 图 6 所 示 。 








> Om 


.var d = db.bench.findOne({j:0}) 
Van d.x 
dX 


-dbabenehapdateel dd dn dD 
.if (db.s$cmd.findOne({getlasterror:1}).updatedExisting) break 


} 





图 





6 乐观 并 发 处 理 
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儿 5.3 “用 Ruby 来 操作 MongoDB 


N 


ss 


SSS 


关系 型 数据 库 为 了 保持 其 基本 的 ACID 原则 ( 原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 )， 需 要 以 
付出 种 种 开销 作为 代价 。 而 相对 地 ，MongoDB 这 样 的 面向 文档 数据 库 由 于 可 以 突破 这 一 局 限 ， 
因此 工作 起 来 显得 比较 轻快 。 








MongoDB 具有 下 列 这 些 主要 特点 : 


口 以 JSON (JavaScript Object Notation ) 格式 保存 数据 
口 不 需要 结构 定义 

口 支持 分 布 式 环境 

口 乐观 的 事务 机 制 

口 通过 JavaScript 进行 操作 

口 支持 从 多 种 语言 进行 访问 









































MongoDB 最 重要 的 特点 就 是 不 需要 结构 定义 。 很 少 有 应 用 程序 在 开发 之 前 就 能 确定 数据 库 
中 需要 保存 的 数据 项 目 。 由 于 开发 过 程 中 的 玻 漏 ， 或 者 是 需求 的 变化 等 ， 经 常 导致 数据 库 结构 
在 开发 中 发 生 改变 。 在 关系 型 数据 库 ( RDB ) 中 ， 遇 到 这 种 情况 每 次 都 需要 重 做 数据 库 。Ruby 
on Rails 中 可 以 通过 migration 方法 对 RDB 结构 迁移 提供 支持 ， 但 即便 如 此 ， 这 个 过 程 依 然 相 当 
麻烦 。 

















而 MongoDB 本 来 就 没有 结构 定义 ， 即 便 数据 库 中 保存 的 项 目 发 生变 化 ， 只 要 程序 做 出 应 
对 就 可 以 了 。 当 然 , 已 经 存在 的 数据 中 不 包含 新 增 的 项 目 , 但 要 做 出 应 对 也 很 容易 。 


仿 使 用 Ruby 驱动 





MongoDB 的 男 一 个 特点 ， 就 是 可 以 由 多 种 语言 进行 访问 。 为 各 种 语言 访问 MongoDB 所 提 
供 的 库 被 称 为 驱动 (driver )。MongoDB 分 别 为 JavaScript、C++、C#、Java、JVM 语言 、Perl、 
PHP、Python 和 Ruby 提供 了 相应 的 驱动 。 














MongoDB 的 服务 器 中 集成 了 JavaScript 解释 锅 ， 因 此 回调 等 服务 顺 端 的 处 理 只 能 
JavaScript 来 编写 。 不 过 ,因为 有 了 支持 各 种 语言 的 驱动 ,客户 端 ( 除了 发 送 给 服务 器 的 程序 以 外 ) 
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则 可 以 用 自己 喜欢 的 语言 来 编写 。 











在 5.2 中 我 们 使 用 mongo 命令 访问 数据 库 ， 并 使 用 JavaScript 对 数据 库 进行 操作 ， 不 过 如 
果 可 以 用 我 们 所 习惯 的 Ruby 来 操作 数据 库 就 好 了 。RubyGems 中 提供 了 相应 的 Ruby 驱动 ， 使 
用 gem 命令 就 可 以 轻松 完成 安装 ( 以 下 命令 均 以 Debian 为 例 ): 

















% sudo gem install mongo 器 


此 外 ， 最 好 也 一 并 安装 用 于 加 速 访问 的 C 语言 库 "， 通 过 这 个 库 可 以 提升 与 MongoDB 服务 
器 通信 需要 用 到 的 “二 进 制 JSON”(BSON ) 的 处 理 速度 。 






































% sudo gem install mongo_ext 器 


要 使 用 MongoDB 的 Ruby 驱动， 需要 在 程序 中 对 mongo 库 进 行 require。 此 外 ， 在 Ruby 中 
还 需要 在 mongo 库 之 前 对 rubygems 库 进 行 require。 





require "rubygems 
require "mongo” 


好 了 ， 我 们 来 尝试 访问 一 下 5.2 中 创建 的 数据 库 服 务 器 吧 。 首 先 我 们 需要 创建 一 个 表示 服 
务 器 连接 的 Mongo::Connection 对 象 。 


m= Mongo::Connection.new 
=> #<Mongo::Connection> 


在 后 面 的 程序 示例 中 ,“=>” 后 面 的 部 分 表示 表达 式 的 求 值 结 果 。 返 回 值 的 表示 是 以 irb 为 
基准 的 ， 但 由 于 版 面 所 限 进 行 了 大 量 的 省 略 。 此 外 ,相当 于 JID 的 数值 (包括 数字 位 数 在 内 ) 也 
会 和 实际 情况 有 所 不 同 。Mongo::Connection.new 可 以 带 两 个 可 选 参数 : 第 一 个 是 主机 名 ， 第 二 
个 是 端口 号 。 这 相当 于 mongo 命令 中 的 “--host” 和 “--port” 人 参数。 




















通过 这 个 连接 ， 我 们 来 尝试 获取 服务 器 所 管理 的 数据 库 清单 。 


m.database_names 
-> orcad eadmimne ee est 


要 删除 一 个 数据 库 ， 可 以 对 数据 库 连 接 对 象 调 用 drop_database 方法 。 


m.drop_database('test') 
> dropped => Gestetemde ee 
"ok"=>1.0} 


























Q@ 由 于 mongo_ext 是 二 进 制 gems， 因 此 需要 另外 安装 开发 环境 ( 编译 器 以 及 编译 用 的 库 文件 )。( 原 书 注 





— 
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饼 对 数据 库 进 行 操 作 





对 数据 库 连 接 调 用 db 方法 可 以 获得 一 个 数据 库 对 象 ， 但 在 创建 数据 库 对 象 的 时 间 点 上 ， 实 
际 上 还 并 没有 真正 创建 数据 库 。 








db = m.db("nikkei_1inux") 
=> #<Mongo::DB> 
m.database_names 
-=> ocan eam test 


通过 调用 数据 库 对 象 的 collection 方法 ,可 以 获取 相应 的 集合 ( 相当 于 关系 型 数据 库 中 的 表 )。 
如 果 要 获取 的 集合 不 存在 ， 则 会 创建 一 个 新 的 集合 。 但 是 ， 和 数据 库 一 样 ， 实 际 的 集合 也 是 要 
等 到 真正 插入 数据 的 时 候 才 会 被 创建 。 























co obeconlee om arnt ils 
=> #<Mongo::Collection> 
db.collection_names 


=> LJ 


全 数据 的 插入 


使 用 insert 方法 或 者 save 方法 可 以 向 集合 中 插入 数据 。 











coll.insert({ 
:title => "技术 的 剖析 "， 
:author => "matz"}) 
=> 0bjectID('4bbf93") 


当 插入 数据 时 ， 数 据 库 和 集合 才 会 真正 被 创建 出 来 。 











m.database_names 


=> ocan ee ami ee mpi krill 
db.collection_names 
=> ["articles"，"System.indexes"] 





这 样 ， 我 们 就 创建 了 nikkei linux 数据 库 和 articles 集合 。system.indexes 集合 是 MongoDB 
用 于 查询 索引 的 集合 。 





食 数据 的 查询 


当然 ， 数 据 不 光 要 能 够 插入 ， 还 要 能 够 取出 。 当 需要 仅 取出 一 个 文档 时 ， 可 以 使 用 fnd 
one 方法 。 
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coll.find_one() 

> nd >0b ec ab 
"title"=>" 技 术 的 剖析 "， 
"author"=>"matz"} 


这 里 我 们 没有 指定 查询 条 件 ， 因 为 这 个 集合 里 面 本 来 就 只 有 一 个 文档 ， 所 以 用 这 条 语句 便 
取出 了 这 个 唯一 的 文档 。 














我 们 再 来 尝试 一 下 从 更 多 的 数据 中 进行 查询 吧 。 首 先 ， 我 们 用 insert 对 数据 库 填充 一 定量 
的 数据 。 








coll = db.collection("bench") 
1000000.times {|i| 
coll.insert({:x => 4, :] => 1}) 


} 
=> 1000000 


这 样 我 们 就 在 bench 集合 中 插入 了 100 万 个 文档 。 下 面 我 们 来 查询 一 下 看 看 。 


coll.find one({:j => 999999}) 
=> {"_id"=>0bjectID('4bbf93"), 
"x"=>4 wo "~=>999999} 


在 我 的 电脑 上 查询 到 这 个 结果 用 了 差不多 1 秒 的 时 间 。 因 为 要 将 100 万 个 文档 全 部 查询 一 遍 ， 
所 以 这 个 速度 不 是 很 快 ， 于 是 我 们 来 创建 一 个 索引 。 











coll.create_ index("j") 
=> 2 LA 


这 样 我 们 就 对 j 这 个 成 员 创 建 了 一 个 索引 。 青 查询 一 次 试 试看 ， 有 瞬间 就 可 以 得 到 结果 ， 索 
引 的 效果 是 非常 明显 的 。 





如 果 用 find 方法 代替 find_one 方法 的 话 ,就 可 以 得 到 一 个 指向 所 有 符合 条 件 的 文档 的 “游标 ” 
(cursor ) 对 象 。 


co i ind(e (>) 
=> #<Mongo: :Cursor> 


依 高 级 查询 








刚才 我 们 所 进行 的 查询 ， 都 是 像 “ 集 合 中 所 有 文档 ”或 者 “字段 满足 一 定 条 件 的 文档 ”等 
简单 的 情况 ， 但 实际 的 查询 并 非 都 如 此 简单 。 在 关系 型 数据 库 中 ， 可 以 使 用 SQL 来 指定 条 件 进 
行 查 询 ，MongoDB 当然 也 可 以 。 例 如 ，SQL 查询 : 
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SELECT * FROM bench WHERE x = 4 
这 样 的 查询 条 件 ， 用 Ruby 可 以 写成 : 


om 于 三 > 王公 
=> #<Mongo::Cursor> 


也 可 以 进行 大 小 比较 ， 如 SQL 查询 : 
SELECT j FROM bench WHERE x >= 4 
用 Ruby 可 以 写成 : 


econ rmd ee > sgte > 4 
=> #<Mongo: :Cursor> 


除了 等 于 的 比较 以 外 ， 其 他 的 比较 都 是 用 以 “$” 开 头 的 操作 符 来 表达 的 。MongoDB 中 可 
以 使 用 的 比较 操作 符 如 表 1 所 示 。 





表 1 比较 操作 符 































































































名 称 语 法 含 义 
$et {"$gt" => val} 大 于 val 

$lt {"$gt" => val} 小 于 val 

S$gte {"$gte" => val} 大 于 等 于 val 

$lte {"$lte" => val} 小 于 等 于 val 

$ne {"$ne" => val} 不 等 于 val 

$in {"$in" => val} 包含 val 

$nin {"$nin" => val} 不 包含 val 

$mod {"$mod" => [n, m]} 除 以 n 的 余数 为 m 
S$all {"$all" => ary} 包含 ary 的 所 有 元 素 
$size {"$size" => n} 数组 长 度 为 n 

Sexists {"$exists" => true} 存在 

Sexists {"$exists" => false} 不 存在 

$not {"$not" => cond} 否定 条 件 

正则 表达 式 ^foo 等 正则 匹配 

$where {"$where" => str} te se | 




















当然 ,通过 多 个 条 件 的 组 合 ， 也 可 以 编写 出 像 “ 大 于 2， 小 于 8” 这 样 的 条 件 。 











econrinde > sgt =>2 Ht >80) 
=> #<Mongo: :Cursor> 
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find 方法 的 选项 





find 方法 可 以 通过 第 二 个 参数 来 指定 一 些 查询 选项 。 
coll.find({:x=>4},{:1imit=>10}) 


这 表示 在 查询 结果 中 只 取出 10 个 结果 的 意思 。 在 Ruby 中 , 末尾 的 参数 为 Hash 时 可 以 省 
略 花 括号 ， 因 此 上 述 fnd 调用 也 可 以 写成 下 面 的 形式 : 








coll.find({:x=>4},:1imit=>10) 
而 且 ， 在 Ruby 1.9 中 ， 当 Hash 以 符号 (symbol ) 为 键 时 ， 也 可 以 写成 省 略 形式 : 





Goll md := > Alm 
find 方法 的 选项 及 其 含义 如 表 2 所 示 。 


表 2 find 方 法 的 选项 

















选 项 值 含义 
:Skip 整数 整数 跳 过 指定 数量 的 结果 。 
:limit 整数 整数 只 取出 指定 数量 的 结果 。 
:sort 文字 列 字符 串 按 指定 字段 进行 排序 。 
数组 按 [字段 ,顺序 ] 的 格式 指定 排序 条 件 。 指 定 顺 序 时 ， 升 
:sort 配 列 





序 为 :asc， 降 序 为 :desc。 
:fields 配 列 数组 指定 结果 文档 中 要 包含 的 字段 名 。 

































































:hint 文字 列 字符 串 使 用 指定 字段 的 索引 进行 查询 。 
:snapshot 真 伪 值 布尔 值 是 否 对 文档 进行 快照 。 
:timeout TRUE TRUE 是否 超时 。 当 指定 :timeout 时 ， 可 附带 代码 块 调用 find。 

















bene 
O 


在 fnd 方法 的 选项 中 ,skip limit sort 也 可 以 作为 fnd 所 返回 的 游标 对 象 的 方法 来 进行 调 月 
因此 ， 像 : 


Co nd :X= >AD mt 

也 可 以 写成 : 
Co nd: = >4 lim 

sort 在 调用 时 可 以 不 在 数组 中 指定 顺序 ， 而 是 在 参数 中 指定 。 因 此 , 像 : 
co find(e :X= >40sor GE: desiead 


用 游标 方法 的 形式 ， 也 可 以 写成 : 
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eon rinex=>A sonre edesey 


这 两 种 写法 ， 在 内 部 处 理 上 是 完全 相同 的 ， 因 此 选 一 种 自己 喜欢 的 写法 就 可 以 了 。 








信 原 子 操 作 


只 有 文档 的 插入 和 查询 并 不 能 构成 数据 库 的 完整 功能 ， 我 们 还 需要 进行 更 新 和 删除 。 文 档 
的 搬入 我 们 使 用 了 save 方法 ,保存 好 的 文档 会 被 赋予 一 个 _id 成 员 ， 因 此 ， 当 要 保存 的 文档 的 
_id 已 存在 时 ， 就 会 覆盖 相应 _id 的 文档 。 也 就 是 说 ， 用 find 或 fnd_one 方法 取出 文档 之 后 ,将 
文档 内 容 进行 改写 ， 然 后 再 重新 save 的 话 ( 唯 独 不 能 改变 _id 成 员 的 值 )， 就 可 以 替换 原来 的 文 
档 了 。 























MongoDB 中 不 支持 事务 机 制 ， 对 于 其 他 连接 对 同一 文档 进行 更 新 的 行为 ， 是 无 法 做 出 保护 
的 。MySQL 在 最 开始 不 支持 事务 的 时 候 还 是 非常 有 用 的 , 由 此 可 见 , Web 应 用 中 的 数据 库 系统 ， 
即便 不 支持 事务 ， 貌 似 也 不 是 很 大 的 问题 。 











MongoDB 中 虽然 不 支持 事务 ， 但 可 以 通过 update 方法 ， 在 更 新 文档 时 排除 来 自 其 他 连接 
的 干扰 。update 方法 与 文档 的 更 新 操作 是 互 斥 的 ， 其 操作 结果 只 有 “更 新 成 功 ” 和 由 于 某 些 原 
“出 错失 败 ” 这 两 种 状态 。 也 就 是 说 ， 当 多 个 连接 同时 对 同一 个 文档 进行 update 操作 时 ， 更 
新 操作 也 不 会 发 生 “ 混 淆 ”, 而 是 保证 其 中 只 有 茶 一 个 操作 能 够 成 功 。 失 败 的 操作 可 以 进行 重 试 ， 
从 结果 来 看 ， 和 按 顺 序 执行 更 新 操作 是 一 样 的 。 

















像 这 样 ， 更 新 操作 不 会 半路 中 断 ， 也 不 会 留 下 不 完整 状态 的 操作 ， 被 称 为 “原子 操作 ”。 











update 方法 最 多 可 以 接受 三 个 参数 。 第 一 个 是 原始 文档 ， 第 二 个 是 新 文档 ， 最 后 一 个 是 选 
项 。 其 中 选项 是 可 以 省 略 的 。 原 始 文档 指 的 是 更 新 之 前 的 文档 ,但 这 里 并 不 需要 给 出 完整 的 文档 ， 
而 是 写成 和 find 方法 查询 相同 的 格式 即 可 。 新 文档 指 的 是 更 新 后 的 文档 ， 这 里 也 不 需要 给 出 完 
整 的 文档 ， 只 要 给 出 包含 更 新 后 字段 的 Hash 即 可 。 当 给 出 的 字段 已 存在 时 就 会 更 新 其 中 的 值 ， 
否则 ， 就 会 添加 一 个 新 的 字段 。 


























update 方法 的 选项 和 find 方法 一 样 , 是 通过 Hash 来 指定 的 。update 方法 的 选项 如 表 3 所 示 。 
我 们 用 update 方法 , 来 进行 对 一 个 文档 中 的 成 员 的 值 累 加 1 这 样 的 原子 操作 ( 图 1 )。 在 图 1 中 ， 
如 果 在 调用 update 的 地 方 用 save 方法 来 代替 ， 在 取出 文档 到 累加 并 保存 的 这 段 时 间 内 ， 如 果 该 
文档 被 其 他 连接 改写 ， 累 加 操作 就 会 失效 。 以 图 2 为 例 ， 两 个 连接 几乎 同时 进行 累加 操作 ， 但 
由 于 取出 和 保存 文档 的 顺序 是 混杂 的 ， 因 此 虽然 进行 了 两 次 累加 1 的 操作 ， 但 实际 上 x 的 值 只 
增加 了 1。 
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表 3 ”update 方法 的 选项 



















































































选 项 值 默认 值 2 
:upsert 布尔 值 假 布尔 值 假 当 与 “原始 文档 ” 相 匹 配 的 文档 不 存在 时 ， 则 创建 新 文档 。 
ee 布尔 什 假 布尔 值 假 当 “原始 文档 ” 匹配 到 多 个 文档 该 选项 为 真 时 ， 则 更 新 
所 有 文档 。 为 假 ， 则 只 更 新 其 中 一 个 文档 。 
:Safe 布尔 值 假 布尔 值 假 为 真 时 ， 会 对 是 否 真 的 完成 了 更 新 进行 确认 
100p 
doc = coll.find_one(:j=>0) < 取出 一 个 文档 


orig = doc.dup < 将 更 新 前 的 文档 保存 下 来 
d["x"] += 1 < 更 新 字段 X 
下 coll.update(orig, doc, 


:Safe=>true) < 调用 update, 不 可 以 用 co11.save(doc), 为 了 确 


认 更 新 结果 设置 了 :Safe 选 项 


if r[0J[0J]["n"] == 1 ”更 新 成 功 则 跳出 循环 
break 
end 二 循环 :返回 开头 .从 取出 文档 的 步骤 开始 重 试 
end 








图 1 








乐观 并 发 控制 
相对 地 ， 像 图 1 这 样 使 用 update 方法 的 话 ， 
在 进行 更 新 操作 时 ， 就 会 像 图 3 一 样 发 现 文档 被 
改写 这 一 情况 ， 并 通过 重 试 最 终 得 到 正确 的 结果 。 











一 至 二 一 





取出 文档 
{X=>4:j=>0} 
vy 
es 对 x 进行 累加 
Bsa {x => 5, j] => 0} 
一 各 一 vy 
对 x 进行 update( 成 功 ) 
取出 文档 {:x => 5, :j] => 0} 
全 二 0 
取出 文档 
vy {X=>M43]=>0} 
对 x 进行 累加 
19G=>5% =>) vy 
对 x 进行 累加 
vy NX> 0 
保存 x 
T=>75% =>0) vy 
保存 x 
MX =>750 =>:0} 





数据 库 中 的 文档 
C=>5El=>0) 


和 2 ”失败 的 并 发 控制 























到 3 成功 的 并 发 控制 
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{:xX => 4, 
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j=> 0} 


一 一 


取出 文档 
{X=>40]=>:0} 


vy 


对 x 进行 累加 
全 ES 三 二 0 


vy 
对 Xx 进行 update( 失败 ) 


vy 
取出 文档 
{X=>5=>0} 
vy 
对 Xx 进行 累加 
{=>60 [=>0) 
vy 


对 Xx 进行 update( 成 功 ) 
EX ==>"6%|=>0} 





vy 
数据 库 中 的 文档 
{X==0W ==>.00 


5.3 用 Ruby 来 操作 MongoDB 











不 过 ， 像 累加 这 样 的 典型 操作 ， 要 是 能 编写 得 更 简单 一 些 就 好 了 。 其 实 ， 只 要 在 update 中 
对 更 新 文档 的 指定 上 稍微 优化 一 下 ， 就 可 以 用 一 个 update 语句 实现 某 些 典型 的 原子 操作 了 。 











例如 ,图 1 中 的 累加 操作 ， 也 可 以 写成 下 面 这 样 : 





coll.update({:j=>0}, 
(Siines > (0 


这 行 代码 的 意思 是 :“ 找 到 字段 j 为 0 的 文档 ,然后 将 j 的 值 加 1”。 





update 方法 中 可 以 使 用 的 原子 操作 如 图 4 所 示 。 原 子 操作 的 名 称 都 是 以 “$” 开 头 的 。 表 3 
中 的 “f” 表 示 字 段 名 ， 字 上 段 名 可 以 通过 字符 串 或 者 符号 的 形式 进行 指定 。 


表 4 update 的 原子 操作 





































































































名 称 功 能 语 法 

$inc 对 f 的 值 加 n {"$inc" => {f=> n}} 

$set 将 f 的 值 设 为 val {"$set" => {f=> val}} 

S$unset 删除 f {"$unset" => {f=> 1}} 

$push 在 f 所 指 的 数组 中 插入 val {"$push" => {f=> val}} 

$pushAll 在 f 所 指 的 数组 中 插入 ary 的 元 素 {"$pushAll" => {f=> ary}} 

$addToSet 当 f 所 指 的 数组 中 不 存在 val 时 则 插入 {"$addToSet" => {f=> val}} 

$pop 除 f 所 指 的 数组 的 最 后 一 个 元 素 {"$pop" => {f=> 1}} 

$pop 虽 除 f 所 指 的 数组 的 第 一 个 元 素 {"$pop" => {f=> -1}} 

$pull 从 f 所 指 的 数组 中 删除 所 有 val {"$pull" => {f=> val}} 

$pullAll 从 f 所 指 的 数组 中 删除 ary 的 元 素 {"$pullAll" => {f=> ary}} 
QActive Record 








在 Ruby 的 世界 中 ， 作 为 面向 对 象 的 数据 库 访问 手段 ， 最 有 名 的 莫 过 于 ActiveRecord 了 。 
在 Ruby on Rails 中 ， 对 关系 型 数据 库 的 操作 并 不 是 直接 进行 的 ， 而 是 通过 ActiveRecord 库 将 表 
中 的 各 条 记录 作为 对 象 来 进行 操作 的 。 像 这 种 将 对 象 与 记录 进行 对 应 的 库 ， 被 称 为 OR Mapper。 
其 中 O 代表 对 象 (Object )，R 代表 关系 ( Relation )， 因 此 它 就 是 将 关系 与 对 象 进行 映射 的 意思 。 
































有 了 ActiveRecord 的 帮助 ， 在 Rails 程序 设计 中 ， 可 以 不 必 关 心底 层 的 关系 型 数据 库 ， 完 全 
以 面向 对 象 的 方式 来 进行 编程 。ActiveRecord 是 一 种 十 分 易 用 的 OR Mapper, 但 也 并 非 完 美 无 缺 。 
其 中 一 个 令 人 不 满意 的 地 方 ， 就 是 数据 库 结 构 信 息 和 模型 "定义 是 分 离 的 。 由 于 Rails 的 组 件 遵 























QO@ 模型 指 的 是 MVC ( Model-View-Controller ) 架构 中 的 Model。 
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循 DRY( Don’'t Repeat Yourself ) 原 则 ,因此 ActiveRecord 中 不 会 对 数据 库 结 构 定 义 进行 重复 描述 。 
数据 库 结构 信息 只 存在 于 它 原本 存在 的 地 方 ， 也 就 是 数据 库 中 。 


言 息 的 重复 往往 是 造成 bug 的 元 凶 ,从 这 一 点 上 来 看 ,DRY 原则 是 非常 优秀 的 。 但 另 一 方面 ， 
对 数据 的 操作 以 及 对 象 之 间 的 关系 ， 则 是 在 模型 中 进行 定义 的 。 从 这 个 意义 上 来 说 ， 对 象 结构 
的 信息 和 对 其 进行 操作 的 信息 是 分 开 的 。 如 果 要 查看 字段 信息 ， 就 必须 要 查看 运行 中 的 数据 库 。 
因此 ， 想 要 将 相关 信息 都 整合 在 一 起 ， 是 再 自然 不 过 的 需求 了 。 
























































男 一 个 不 满意 的 地 方 , 则 是 ActiveRecord 所 提供 的 “一 条 记录 = 一 个 对 象 ” 这 样 的 抽象 化 模型 ， 
并 非 总 是 最 优 的。 在 简单 的 水 平 上 , “一 条 记录 = 一 个 对 象 ”这 样 的 抽象 化 模型 实现 起 来 很 容易 ， 
只 要 将 SQL 调用 所 得 到 的 记录 封闭 成 对 象 就 可 以 了 。 但 是 ， 当 对 象 的 调用 变 得 越 来 越 频 繁 和 复 
杂 时 ， 就 会 产生 性 能 上 的 问题 。 结 果 ， 关 系 型 数据 库 中 的 记录 ， 并 没有 成 为 真正 意义 上 的 对 象 ， 
在 特殊 情况 下 ， 会 肾 露 出 抽象 化 中 的 丝 漏 。 这 样 的 问题 ， 被 称 为 抽象 泄漏 〈1leaky abstraction )。 











如 果 为 了 改善 性 能 而 使 用 缓存 等 手段 的 话 ， 模 型 的 逻辑 会 变 得 越 来 越 复 杂 。 另 一 方面 ， 为 
了 得 到 更 优化 的 SQL， 会 对 find 方法 等 指定 非常 详细 的 选项 ， 结 果 则 是 无 法 用 Ruby 来 编写 ， 
最 后 变 成 直接 写 SQL 了 。 这 也 许 已 经 是 ActiveRecord 的 极限 了 吧 。 











QOD Mapper 
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这 个 时 候 ， 就 轮 到 MongoDB 发 挥 威力 了 。 由 于 MongoDB 是 不 需要 数据 库 结构 的 ， 因 此 结 
构 定 义 和 模 型 定义 分 离 的 问题 也 就 不 存在 了 。 此 外 ，MongoDB 中 也 没有 SQL， 原 本 也 无 法 进行 
复杂 的 查询 ,因此 也 不 必 担 心 会 写 出 “SQL 式 的 Ruby”。 当然 ,也 许 大 家 会 觉得 这 样 是 治标 不 治本 ， 
不 过 这 个 问题 本 来 就 应 该 分 开 来 看 。 也 就 是 说 ， 如 果 使 用 MongoDB 的 话 ( 如 果 应 用 程序 能 够 
使 用 MongoDB 来 实现 的 话 )， 对 ActiveRecord 的 那些 不 满 也 就 可 以 得 到 缓解 了 。 















































要 在 Rails 中 使 用 MongoDB ， 有 一 些 是 可 以 与 ActiveRecord 互 换 的 库 。 


口 MongoMapper 
口 Mongoid 


DQ activerecord-alt-mongo-adapter 





由 于 MongoDB 不 是 关系 型 数据 库 ， 因 此 这 些 库 也 不 能 称 之 为 OR Mapper， 而 是 应 该 称 之 
为 Object Document Mapper ( OD Mapper ) 了 吧 。 
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1. MongoMapper 





MongoMapper 是 MongoDB 用 
ActiveRecord 驱动 中 资历 最 老 的 一 个 ， 作 
者 是 John Nunemaker。 话 说 ，MongoDB 
本 喘 是 2009 年 才 诞生 的 ， 因 此 所 谓 资 
历 最 老 其 实 也 老 不 到 哪里 去 呢 。 它 与 
ActiveRecord 之 间 的 兼容 性 很 高 ， 在 Rails 
应 用 程序 中 ， 即 便 将 MongoMapper 当成 
ActiveRecord 的 替代 品 来 使 用 ， 各 种 Rails 
插件 也 都 能 正常 工作 。 

















MongoMapper 中 的 模型 定义 如 图 4 所 
示 。MongoDB 中 对 模型 进行 定义 时 ， 本 
来 就 不 需要 数据 库 结 构 定 义 ， 实 际 上 ， 





require "rubygems 


5.3 用 Ruby 来 操作 MongoDB 


require "mongo_mapper" 


class Employee 
include MongoMapper 
key :first_name 
key :last_name 
many :addresses 

end 


class Address 
include MongoMapper 
key :street 
key :city 
key :state 
key :post_code 
end 





::Document 


::EmbeddedDocument 






































图 4 MongoMapper i 








在 MongoMapper 中 结构 定义 也 不 是 必需 
的 ， 但 也 可 以 通过 key 方法 对 字段 及 其 类 型 

















进行 显 式 的 声明 。 通 




















过 这 样 的 显 式 声明 ， 可 以 利用 


行 模型 定义 











类 型 检查 ， 使 得 一 些 问 题 更 容易 被 发 现 ， 同 时 也 使 得 数据 库 结 构 能 够 文档 化 。 刚 才 我 们 讲 过 对 
ActiveRecord 的 不 满意 的 地 方 ， 而 在 这 里 ， 我 们 可 以 将 数据 库 的 结构 和 操作 在 同一 个 地 方 进行 


定义 ， 感 觉 非常 好 。 








在 MongoDB 中 ， 可 以 在 一 个 文档 中 艇 入 另 一 个 文档 (JSON )， 这 在 一 般 的 关系 型 数据 库 
中 是 很 难 做 到 的 "。 当 然 ， 原 本 就 是 基于 关系 型 数据 库 的 ActiveRecord 自然 也 不 支持 嵌 人 文档 ， 
而 在 MongoMapper 中 ， 对 于 舰 入 的 文档 只 要 将 include 的 类 由 MongoMapper::Document 改 成 
MongoMapper::EmbeddedDocument, 就 表示 该 对 象 不 是 保存 在 独立 的 集合 中 ,而 是 一 个 租 入 文档 。 




















2. Mongoid 








Mongoid 是 一 个 比 MongoMapper 更 新 一 些 的 库 ， 作 者 是 Durran Jordan。Mongoid 的 功能 很 





丰富 ， 通 过 和 ActiveRecord 类 似 的 API 可 以 充分 发 挥 MongoDB 的 全 部 功能 。 用 Mongoid 定义 








一 个 和 图 4 相同 的 模型 ， 代 码 如 图 $ 所 示 。 在 一 些 细节 上 有 所 差别 ， 但 大 意 是 一 样 的 。 不 过 ， 
Mongoid 中 是 没有 对 于 般 入 文档 的 定义 的 ,但 Mongoid 中 其 实 有 一 条 规则 : 凡是 指定 了 “inverse _ 





of ”的 对 象 关系 都 会 自动 被 视 为 敌人 入 。 这 一 点 























还 是 相当 智能 的 。 





Q 也 有 一 些 关 系 型 数据 库 提供 了 可 以 直接 引用 另外 一 张 表 指定 部 分 的 功能 。( 原 书 注 ) 
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此 外 ， 对 于 MongoDB 所 提供 的 
如 支持 文档 的 类 继承 、 验 证 、 版 本 
控制 、 回 调 ， 以 及 基于 JavaScript 的 
MapReduce 等 功能 ，Mongoid 都 通过 和 
ActiveRecord (以 及 ActiveModel ) 相 类 
似 的 API 进行 了 实现 ， 这 也 是 Mongoid 
的 设计 思想 之 一 。 





3. activerecord-alt-mongo-adapter 


activerecord-alt-mongo-adapter 是 


最 新 的 一 个 库 ， 作 者 是 SUGAWARA 
Genki。MongoMapper 和 Mongoid 都 是 
替代 ActiveRecord 来 使 用 的 库 ， 相 比 之 
下 ，activerecord-alt-mongo-adapter 则 是 
一 个 用 于 ActiveRecord 的 DB 适配器 ( 图 
6 )。 换 名 话说 ， 它 并 不 是 一 个 独立 的 寿 
代 库 ， 而 是 一 个 通过 ActiveRecord 的 
数据 库 切 换 功能 来 使 用 的 MongoDB 访 
问 适配器 。 因 此 ，ActiveRecord 本 身 的 
功能 都 可 以 直接 使 用 。 仔 细 想 想 的 话 ， 
ActiveRecord 虽然 通过 提供 相应 的 适 配 
器 的 方式 实现 了 对 各 种 数据 库 的 支持 ， 






































require "rubygems 
require "mongoid 


class Employee 
include Mongoid::Document 
field :first_name 
field :last_name 
has_many :addresses 
end 


class Address 
include Mongoid::Document 
field :street 
fed ely, 
field :state 
field :post_code 
belongs_to :employee, 
:addresses 
end 


加 5 用 Mongoid 进行 模型 定义 

















class Employee < ActiveRecord::Base 
include ActiveMongo::Collection 
has_many :addresses 

end 


class Address < ActiveRecord::Base 
include ActiveMongo::Collection 
end 





:inverse_of => 





























图 6 用 activerecord-alt-mongo-adapter 进行 模型 定义 


而 且 只 要 修改 配置 文件 就 可 以 对 数据 库 系统 进行 切换 ,但 其 工作 方式 总 归还 是 基于 SQL 的 。 





然而 ，MongoDB 属于 NoSQL ， 当 然 是 无 法 用 SQL 来 进行 解释 的 。 为 了 搞 清楚 这 个 适 配 融 





是 如 何 实现 对 MongoDB 的 支持 的 ， 我 看 了 一 下 它 的 源 代码 。 它 为 了 能 够 解释 从 ActiveRecord 


传 来 的 SQL， 居 然 用 Ruby 编写 了 一 个 SQL 语法 解析 器 ， 而 对 于 MongoDB 的 访问 是 通过 这 个 


SQL 语法 解析 需 来 完成 的 。 喇 ， 好 厉害 啊 。 


不 过 ， 以 ActiveRecord 适配器 的 形式 工作 也 并 非 尽 善 尽 美 ， 在 我 查 到 的 范围 内 ， 像 对 通信 
文档 的 支持 、 模 型 内 部 字段 声明 、 在 模型 定义 中 创建 索引 等 功能 都 是 不 支持 的 。 这 些 功 能 在 关 
系 型 数据 库 中 本 来 就 不 存在 ， 而 ActiveRecord 也 原本 就 没有 考虑 到 在 非 关 系 型 数据 库 上 进行 应 
用 ， 因 此 在 这 一 点 上 也 不 能 指望 ActiveRecord。 即 便 如 此 ， 通 过 利用 ActiveRecord， 它 只 用 了 相 
当 于 MongoMapper 和 Mongoid 十 分 之 一 的 代码 量 ， 就 实现 了 对 MongoDB 的 访问 ， 可 以 说 是 很 














了 不 起 的 。 
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5.3 用 Ruby 来 操作 MongoDB 





说 到 底 ，activerecord-alt-mongo-adapter 只 是 一 个 ActiveRecord 适配器 。 因 此 ， 作 为 ActiveRecord 
的 特点 之 一 ， 它 可 以 通过 database.yml 在 开发 环境 DB 和 正式 环境 DB 之 间 进 行 自动 切换 ， 这 可 





以 说 是 一 个 比较 大 的 优点 。 





但 与 此 同时 ， 仅 通过 这 个 适配器 很 难 用 到 MongoDB 的 全 部 功能 ， 而 
额外 的 SQL 解析 层 ， 性 能 方面 也 很 让 人 担心 。 
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且 由 于 需要 经 过 一 个 
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SERIES 


5.4 SQL 数据 库 的 反击 


BY 


N 


SS 
SS 





有 一 种 说 法 称 : 云 计算 不 再 是 SQL 的 时 代 ， 而 是 NoSQL 的 时 代 。 因 此 ， 不 依赖 SQL 且 结 
构 简 单 的 NoSQL 数据 库 受到 了 广泛 的 关注 。 那 么 ，SQL 数据 库 真 的 已 经 不 再 那么 重要 了 吗 ? 
SQL 数据 库 真 的 不 支持 云 计 算 吗 ? 








饼 云 的 定义 





“去 ”这 个 词 有 很 多 种 用 法 ， 不 过 它 的 定义 却 非常 模糊 ， 导 致 我 们 的 讨论 容易 过 度 发 散 。 为 
了 让 论点 更 加 明确 ,我 们 在 这 里 将 “ 云 ”定义 为 “大 规模 分 布 式 环境 ”这 个 概念 。 


当然 ,“ 云 ”并 非 总 是 代表 “大 规模 分 布 式 环境 ”， 但 在 数据 库 系统 的 语 境 中 , 用 “ 云 ” 这 
个 词 一 般 是 代表 现 有 数据 库 系 统 很 难 应 对 的 情况 。 也 就 是 说 ,数据 量 和 访问 量 这 两 者 的 其 中 一 个 ， 
甚至 是 全 部 两 个 ， 其 规模 已 经 超过 单独 一 台数 据 库 服务 器 所 能 够 应 对 的 程度 ， 必 须要 依靠 由 多 
台 服 务 需 协同 工作 所 构成 的 分 布 式 环境 来 进行 应 对 。 




















在 这 样 的 环境 中 ,不 使 用 SQL 的 NoSQL 数据 库 很 受 欢 迎 。 像 SQL 这 样 复杂 的 查询 访问 是 
受 限 的 ， 取 而 代 之 的 则 是 多 个 NoSQL 数据 库 自 动 分 布 到 多 合 服务 右上 的 架构 。 这 种 方式 对 大 规 
模 分 布 式 环境 拥有 更 强 的 亲和力 。 




















饼 SQL 数据 库 的 极限 
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那么 ，SQL 数据 库 真 的 不 适合 大 规模 分 布 式 环境 吗 ? 在 云 计算 环境 中 ， 它 真 的 就 不 如 
NoSQL 数据 库 吗 ? 事实 上 并 不 一 定 。 在 云 计算 环境 下 最 大 限度 利用 现 有 SQL 数据 库 的 技术 ， 
目前 已 经 在 实用 化 方面 取得 了 一 定 的 进展 。 


其 中 一 个 基本 的 思路 是 对 数据 库 进 行 分 割 。 在 专业 领域 ， 这 种 数据 库 分 割 被 称 为 Sharding 
或 者 Partitioning。 这 种 手法 的 目的 ， 是 通过 将 数据 库 中 大 量 的 记录 分 别 存 放 到 多 人 台 服 务 天 中， 
从 而 避免 数据 库 服务 需 的 瓶 开 。 以 mixi 这 样 的 社交 网 站 〈SNS ) 为 例 ， 可 以 理解 为 将 用 户 编 号 
为 偶数 的 用 户 和 编号 为 奇数 的 用 户 分 别 存放 到 不 同 的 数据 库 中 。 这 样 就 避免 了 对 单独 一 台数 据 
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5.4 SQL 数据 库 的 反击 


库 服务 天 的 集中 访问 ， 从 而 提高 了 处 理 速 度 。 第 一 步 的 分 割 可 以 在 应 用 程序 级 别 上 完成 ， 在 上 
述 例子 中 ， 对 编号 为 偶数 和 奇数 的 记录 分 别 访问 不 同 的 数据 库 ， 而 这 样 的 逻辑 可 以 编写 在 应 用 
程序 中 。 





























不 过 ， 仔 细 想 想 就 会 发 现 ， 其 实数 据 库 的 分 制 和 应 用 程序 逻辑 的 本 质 毫 无 关系 ， 是 需要 在 
数据 库 层 面 上 解决 的 问题 。 将 这 样 的 逻辑 混和 人 应 用 程序 中 的 话 ， 说 实话 是 很 “拙劣 ”的 。 数 据 
库 的 问题 ， 就 应 该 在 数据 库 中 解决 ， 不 是 吗 ? 像 这 样 能 够 实现 自动 分 割 的 方法 有 很 多 种 ， 这 里 
我 们 介绍 一 下 为 MySQL 提供 分 割 功 能 的 Spider。 


























依存 储 引擎 Spider 

















Spider 是 由 ST Global 公司 的 斯 波 健 德 (Kentoku Shiba ) 先生 开发 的 一 种 存储 引擎 。 在 
MySQL 中 ,， 用 于 查询 处 理 的 数据 库 引擎 和 实际 负责 存储 数据 的 存储 引擎 是 相互 独立 的 ， 对 于 每 
张 数 据 表 都 可 以 采用 不 同 的 存储 引 敬 。 可 能 大 家 都 听 说 过 InnoDB 、MYyISAM 之 类 的 名 字 ， 这 些 
都 是 MySQL 的 存储 引擎 。 























Spider 和 它们 一 样 ， 也 是 在 MySQL 上 工作 的 存储 引擎 的 一 种 。 不 过 ，Spider 自身 并 不 执 
行 实际 的 数据 存储 操作 ， 而 是 将 这 些 操作 交 给 其 他 的 MySQL 服务 器 来 完成 。 也 就 是 说 ， 在 使 
用 Spider 的 时 候 ， 表面 上 看 起 来 是 一 个 数据 库 ， 实 际 上 却 可 以 将 数据 自动 分 割 保存 在 多 台数 
据 库 中 ( sharding )， 而 且 只 要 对 一 台数 据 库 保存 数据 ， 也 会 同时 在 其 他 服务 器 的 数据 库 中 保存 
( replication )。 比 起 在 应 用 程序 端 实现 分 割 来 说 ， 用 Spider 来 实现 有 下 列 这 些 优点 : 


























口 逻辑 和 数据 库 相 分 离 : 使 用 Spider， 就 意味 着 从 应 用 程序 端 看 起 来 ， 对 数据 库 的 访问 和 
通常 的 MySQL 访问 是 完全 一 样 的 。 因 此 ， 在 应 用 程序 端 不 需要 进行 任何 特殊 的 应 对 。 
口 可 维护 性 高 : 和 分 割 相关 的 信息 都 只 维护 在 表 定 义 中 ， 而 且 ， 数 据 库 分 割 策略 也 可 以 在 
表 定 义 中 进行 设置 。 关 于 数据 库 的 设置 都 集中 在 一 个 地 方 ， 这 一 点 从 可 维护 性 的 角度 来 
说 ， 是 非常 重要 的 。 






































刚才 我 们 介绍 了 利用 MySQL 的 存储 引擎 Spider 进行 自动 分 割 的 手法 。 其 实 实现 自动 分 割 
的 软件 不 仅 只 有 这 一 种 ， 单 在 MySQL 数据 库 中 ， 除 了 Spider 之 外 ， 还 有 像 MySQL Cluster、 
SpockProxy 等 其 他 方案 。 





匀 SQL 数据 库 之 父 的 反 联 





尽管 通过 Sharding 技术 将 数据 库 进行 分 割 ， 就 能 够 在 分 布 式 环境 中 运用 SQL 数据 库 ， 但 却 
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无 法 做 到 像 一 部 分 NoSQL 数据 库 那 样 ， 能 够 根据 需要 自动 增加 节点 来 实现 性 能 的 扩充 。 此 外 ， 
如 果 用 SQL 数据 库 来 实现 NoSQL 中 这 种 简单 的 查询 处 理 ， 大 多 数 情 况 下 在 性 能 


询 数 ) 都 不 及 NoSQL。 


虽说 SQL 和 NoSQL 各 自 所 擅长 的 领域 不 同 ， 
用 NoSQL 是 板 上 钉 钉 的 事 。 在 这 个 时 候 ， 迈 克 尔 .其 


























( 如 每 秒 查 


日 很 多 人 曾经 认为 在 大 规模 分 布 式 环境 中 使 
通 布雷 克 (Michael Stonebraker，1943 一 ) 


站 了 出 来 。 斯 通 布雷 克 是 最 早 的 RDB 系统 Ingres 的 开发 者 ， 在 Ingres 商用 化 之 后 ， 他 开发 了 
Ingres 的 后 续 版 本 Postgres， 后 者 演变 为 现在 的 PostgreSQL。 斯 通 布雷 区 应 该 被 称 为 PostgreSQL 
之 父 ， 但 他 的 贡献 并 非 仅 仅 如 此 。 由 于 Sybase 以 及 Microsoft SQL Server 中 都 继承 了 他 所 开发 



























































的 Ingres 的 代码 ,因此 毫 无 疑问 ,他 是 一 个 对 于 SQL 数据 库 整 体 都 产生 了 巨大 影响 的 人 物 。 现 在 ， 
斯 通 布雷 克 担 任 MIT ( 麻 省 理工 学 院 ) 客座 教授 ， 同 时 还 在 几 家 数据 库 相 关 的 企业 中 担任 董事 。 





斯 通 布雷 克 在 计算 机 协会 ACM "的 学 术 期 刊 《Communications of the ACM》( ACM 通信 ) 


2010 年 4 月 号 中 刊登 了 一 篇 题 为 “SQL Databases vs NoSQL Databases” 的 专栏 2。 在 该 专栏 中 ， 














下 观点 : 





























SQL 和 ACID 是 无 关 的 。 








口 NoSQL 的 优势 在 于 性 能 和 灵活 性 。 
口 NoSQL 的 性 能 优 于 SQL 这 一 说 法 ， 并 非 在 所 有 情况 下 都 成 立 。 
口 通 常 认为 NoSQL 是 通过 牺牲 SQL 和 ACID 特性 ?来 实现 其 性 能 的 ， 然 而 








斯 通 布雷 区 以 “所 有 的 技术 都 有 其 擅长 的 领域 ， 没 有 一 种 数据 库 是 万 能 的 ”为 前 提 ， 提 出 了 以 


性 能 问题 与 


说 实话 , 看 了 这 些 内 容 , 我 的 第 一 反应 就 是 :“ 唉 ? 真 的 吗 ? “。 作 为 像 我 这 样 写 了 很 多 文章 ， 
给 别人 灌输 了 “ 云 计算 时 代 非 NoSQL 莫 属 ”观点 的 人 来 说 ， 实 在 是 百 思 不 得 其 解 。 





那么 我 们 就 来 看 个 究竟 吧 。 根 据 这 篇 文 昔 ， 决 定 SQL 数据 库 怕 





间 的 通信 开销 ， 以 及 服务 器 上 的 事务 处 理 开外 
上 的 存储 过 程 ( Stored Procedure ) 在 一 定 程度 上 得 以 解决 。 




















肖 。 而 通信 开销 可 以 通过 将 大 部 分 处 到 











E 能 的 ， 是 客户 端 与 服务 器 之 


放 在 服务 天 





GD 计算 机 协会 (Association of Computer Machinary，ACM ) 是 一 个 世界 性 计算 机 从 业者 的 专业 组 织 ， 被 誉 为 计算 























机 领域 的 诺 贝 尔 奖 的 图 灵 奖 就 是 由 ACM 计 


办 的 o 





@) 斯 通 布雷 克 的 专栏 可 参见 : http://cacm.acm.org/blogs/blog-cacm/50678-the-nosql-discussion-has-nothing-to-do-with- 





sqlfulltext。( 原 书 注 ) 














@) 数据 库 所 应 具备 的 4 种 特性 的 首 字母 缩写 ， 即 一 系列 处 理 不 会 残留 中 间 状 态 的 Atomicity ( 原子 性 )、 不 会 产生 
数据 不 完整 的 Consistency ( 一 致 性 )、 对 处 理 中 间 状 态 进 行 隐藏 的 Isolation ( 隔离 性 ) 以 及 对 完成 的 处 理 进行 保 


存 的 Durability ( 持久 性 ) ( 原 书 注 
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而 对 于 服务 右上 的 处 理 ， 大 人 致 进行 分 类 的 话 ， 主 要 有 4 个 瓶 贷 ， 而 对 于 这 些 瓶 贷 的 应 对 就 
是 决定 性 能 的 关键 。 这 4 个 瓶颈 具体 如 下 。 


日 志 ( Logging ): 为 了 防止 磁盘 毅 省 等 故障 的 发 生 , 大 多 数 关系 型 数据 库 都 会 执行 两 次 写 和 人 。 
即 向 数据 库 执行 一 次 写 和 人， 再 向 日 志 执 行 一 次 写 人 人。 而 且 ， 为 了 防止 日 志 信 息 丢 失 (〈 为 了 实现 
ACID 中 的 D )， 必 须 保 证 这 些 数 据 确实 写 人 了 磁盘 中 。 这 样 ， 即 便 由 于 一 些 问 题 导致 数据 库 崩 
泪 ， 也 可 以 根据 日 志 的 内 容 恢复 到 故障 前 的 状态 。 然 而 ， 考 虑 到 向 磁盘 写 入 的 速度 是 非常 慢 的 ， 
因此 向 日 志 执行 确定 的 写 和 人 操作 是 非常 “昂贵 ”的 。 









































事务 锁 ( Locking ): 在 对 记录 进行 操作 之 前 ， 为 了 防止 其 他 线程 对 记录 进行 修改 ， 需 要 对 
事务 加 锁 。 这 也 形成 了 一 项 巨大 的 开销 。 





内 存 锁 ( Latching ): Latch 是 门 门 的 意思 ， 这 里 是 指 对 锁 和 了 B 树 等 共享 数据 结构 进行 访问 
时 所 需要 的 一 种 排他 处 理 方式 ， 斯 通 布雷 克 管 这 种 方式 叫做 Latching。 这 也 是 造成 开销 的 原因 
之 = 

















缓存 管理 ( Buffer Management ): 一 般 来 说 ， 数 据 库 的 数据 是 写 入 到 固定 长 度 的 磁盘 页 面 
中 的 。 对 于 哪个 数据 写 入 哪个 页 面 ， 或 者 是 哪个 页 面 的 数据 缓存 在 内 存 中 ， 都 需要 由 数据 库 进 
行 管理 。 这 也 是 一 项 开销 很 大 的 处 理 。 





斯 通 布雷 克 认 为 ， 要 实现 高 速 的 数据 库 系 统 ， 必 须要 消除 上 述 所 有 4 个 瓶 诺 ,而 且 上 述 瓶 
有 颈 并 非 SQL 数据 库 所 固有 的 。 听 他 这 么 一 说 ， 好 像 还 真是 这 么 回 事 。 





NoSQL 之 所 以 被 认为 速度 很 快 ， 是 因为 它 在 设计 之 初 就 考虑 了 分 布 式 环境 ， 通 过 多 个 节点 
将 处 理 分 挫 了 。 然 而 ，SQL 数据 库 也 是 可 以 将 处 理 分 摊 到 多 个 节点 上 的 。 此 外 ， 即 便 是 NoSQL 
数据 库 ， 只 要 涉及 到 磁盘 写 和 操作， 以 及 多 线程 架构 下 的 缓存 管理 ， 也 难以 回避 上 述 瓶 颈 中 的 
一 个 或 几 个 。 






































通过 上 面 的 分 析 ， 斯 通 布雷 克 的 结论 是 ， 无 论 是 SQL 还 是 ACID 特性 ， 都 不 是 影响 云 计算 
环境 下 数据 库 性 能 的 本 质 性 障碍 。 喇 ， 原 来 如 此 。 

















随后 ， 斯 通 布雷 克 还 写 了 一 篇 博客 "， 对 于 与 CAP 原理 ”相对 应 的 NoSQL 数据 库 策 略 
BASE ( Basically Available, Soft-state, Eventually consistent ) 前 述 了 反对 意见 。 这 还 真是 让 人 大 开 
眼界 。 











Oz 网 址 : http://cacm.acm.org/blogs/blog-cacm/83396-errors-in-database-systems-eventual-consistency-and-the-cap-theorem/ 
fulltext (〈 原 书 注 ) 

@ 在 “一 致 性 “ “可 用 性 ”和 “分 裂 容 忍 性 ”三 者 中 ， 只 能 同时 满足 其 中 两 者 。 据 说 这 一 原理 已 经 通过 数学 方法 
得 到 了 证 明 。 而 BASE 是 以 满足 “可 用 性 ”和 “分 裂 容 忍 性 ”为 目标 的 。( 原 书 注 ) 
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之 前 讲 的 这 些 ， 还 只 是 停留 在 “SQL 数据 库 在 理论 上 还 存在 着 可 能 性 ”这 个 阶段 ， 但 作为 
技术 大 牛 的 斯 通 布雷 克 可 不 会 仅仅 满足 于 这 样 的 结论 ， 他 已 经 在 数据 库 业 界 的 最 前 线 活跃 了 40 
多 年 ， 绝 对 不 是 一 个 简单 的 人 物 。 斯 通 布雷 克 在 美国 一 家 叫做 VoltDB 的 创业 型 公司 任 CTO， 
该 公司 将 他 的 上 述 观 点 进行 了 体现 ， 开 发 出 了 VoltDB 数据 库 系统 ， 并 以 开源 形式 发 布 。 这 是 何 
等 惊人 的 行动 力 。 





















































VoltDB 有 两 个 版 本 ， 一 个 是 以 GPL 协议 发 布 的 开源 社区 版 本 ( Community Edition )， 男 一 
个 是 以 订阅 形式 提供 的 收费 版 本 。 开 源 版 本 可 以 直接 从 VoltDB 公司 的 官方 网 站 获取 。 

















VoltDB 并 不 是 一 个 像 PostgreSQL 或 MySQL 那样 的 通用 数据 库 ， 而 是 一 个 面向 特定 领域 
( OLTP ) 进行 了 大 幅度 调 优 的 数据 库 系统 。 在 VoltDB 的 主页 上 是 这 样 介绍 它 的 :“VoltDB 是 面 
向 大 规模 事务 处 理应 用 程序 的 SQL 数据 库 系 统 。” 其 特征 包括 以 下 几 点 : 

















口 比 传统 RDBMS 高 出 几 十 倍 的 性 能 
口 线性 可 扩展 性 

口 以 SQL 作为 DBMS 接口 

口 ACID 特性 

口 可 365 天 24 小 时 全 天 候 工作 的 高 可 用 性 


看 起 来 很 有 吸引 力 对 吧 ? 


不 过 ， 到 底 是 用 了 怎样 的 手段 才 实 现 了 这 样 的 特性 呢 ?” 尤 其 是 斯 通 布雷 克 在 博客 中 指出 的 
那 四 个 瓶颈 ， 到 底 是 用 什么 办 法 来 解决 的 呢 ? 





























首先 ，VoltDB 最 大 的 特征 在 于 ， 它 是 一 个 内 存 数据 库 系统 。 也 就 是 说 ， 数 据 基 本 上 是 储存 
在 内 存 中 的 。 由 于 数据 存储 在 内 存 中 ,缓存 管 理 的 问题 就 得 以 解决 ， 而 且 由 于 不 存在 磁盘 表演 
的 情况 ， 也 就 不 需要 日 志 了 。 这 样 一 来 ， 四 个 瓶 须 中 一 下 子 就 解决 了 两 个 。 








等 等 ， 先 别 高 兴 太 早 。 电 源 一 关 ， 内 存 中 的 数据 就 消失 了 ， 这 样 的 数据 库 岂 不 是 无 法 提供 
ACID 中 的 持久 性 这 一 特性 吗 ?” 其 实 ， 在 VoltDB 中 ,持久 性 是 通过 复制 (replication ) 的 方式 来 
维持 的 。VoltDB 数据 库 是 在 由 多 人 台 服 务 需 组 成 的 集群 上 工作 的 ， 在 集群 中 的 多 人 台 服 务 器 上 都 保 
存 有 重复 的 数据 副本 ， 因 此 即便 失去 一 台 服 务 器 ， 也 不 必 担 心 数据 会 丢失 。 此 外 ，VoltDB 也 提 
供 了 定期 将 数据 写 人 文件 的 快照 功能 。 


























那么 ， 剩 下 的 两 个 瓶 肛 ， 即 事务 锁 和 内 存 锁 又 是 如 何 解决 的 呢 ? 在 VoltDB 中 ， 数 据 库 是 分 
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制 成 多 个 分 区 ( partition ) 来 管理 的 ， 对 于 每 个 分 区 都 分 配 了 一 个 独立 的 管理 线程 。 也 就 是 说 ， 
对 分 区 的 操作 是 单线 程 的 ， 因 此 也 就 从 根本 上 不 需要 用 于 实现 排他 处 理 的 事务 锁 和 内 存 锁 机 
制 了 。 














VoltDB 通过 这 样 的 构造 回避 了 瓶颈 ， 其 每 秒 事务 数 (TPS ) 可 以 跑 出 比 传统 RDBMS 高 50 
倍 的 成 绩 ( 根据 VoltDB 公司 的 测试 数据 )。 怎 么 说 呢 ， 这 是 拿 一 般 的 磁盘 写 入 型 数据 库 和 内 存 
型 数据 库 来 比较 ， 有 这 种 程度 的 差距 也 许 并 不 意外 。 此 外 ， 由 于 上 述 比 较 是 在 一 台 服 务 器 上 进 
行 的 ， 而 VoltDB 可 以 通过 增加 节点 来 使 性 能 呈 线 性 提升 ， 也 就 是 说 ， 如 果 将 服务 器 数量 翻 倍 ， 
则 性 能 也 几乎 可 以 翻 倍 ， 因 此 还 是 非常 值得 期 待 的 。 
































仿 VoltDB 的 架构 











VoltDB 采用 以 内 存 型 集群 运用 为 前 提 的 架构 ， 
光 这 一 点 就 和 传统 的 RDBMS 架构 大 相 径 庭 ， 但 它 
们 之 间 的 差异 还 远 远 不 仅 限于 此 。 没 有 人 知道 ， 依 
靠 打 破 RDBMS 常识 的 想象 力 ， 向 超 高 速 的 实现 发 
起 挑战 的 斯 通 布雷 克 ， 在 这 条 路 上 到 底 能 走 多 远 。 









































RDBMS 





大 家 应 该 还 记得 ， 在 上 述 “4 个 瓶颈 ”之 前 ， 


曾经 讲 过 “通信 开销 过 大 的 问题 ， 通 过 存储 过 程 
可 以 在 一 定 程度 上 得 到 解决 "。 在 传统 的 数据 库 
中 ， 有 专门 负责 数据 存储 的 数据 库 服务 器 ， 而 应 用 


程序 是 通过 SQL 来 进行 查询 的 ( 图 1 )。 而 对 于 需 图 1 传统 的 RDBMS 架构 

要 重复 进行 的 操作 ， 可 以 通过 某 种 手段 ， 调 用 服务 

器 上 事先 写 好 的 存储 过 程 来 实现 ， 从 而 在 一 定 程 度 上 减少 通信 量 。 存 储 过 程 的 实现 方式 在 各 种 
RDBMS 上 都 有 所 不 同 ， 有 的 是 用 C 等 语言 来 编写 并 载 人 到 服务 器 上 ， 也 有 的 是 将 SQL 进行 扩 
展 来 编写 存储 过 程 。 


不 过 ,“ 走 极端 ”的 VoltDB 可 不 是 光 有 存储 过 程 就 满足 了 的 。“ 既 然 存储 过 程 可 以 改善 性 能 ， 
那么 把 所 有 的 事务 都 用 存储 过 程 来 实现 不 就 好 了 吗 ? ”于 是 , 在 VoltDB 中 ， 对 服务 器 的 调用 只 
能 运行 事先 编写 好 的 过 程 。 也 就 是 说 ，VoltDB 虽然 是 一 个 SQL 数据 库 ， 但 却 无 法 从 客户 端 来 
执行 SQL 查询 ( 实际 上 貌似 是 可 以 的 ， 只 是 不 推荐 而 已 )。 这 是 何等 的 大 刀 阔 人 答 。 从 结果 来 看 ， 
对 VoltDB 的 访问 不 能 使 用 现在 主流 的 ODBC 和 JDBC 方式 ， 因 为 这 些 方式 都 是 通过 SQL 来 调 
用 RDBMS 功能 的 。 要 对 VoltDB 进行 访问 ， 需 要 用 Java 来 编写 程序 。 
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也 就 是 说 ， 在 MySQL 等 现 有 RDBMS a 

的 结构 中 包括 通用 的 数据 库 服务 器 ， 客 人 
户 端 用 SQL 对 该 服务 器 进行 访问 ， 而 在 ww 

VoltDB 中 ,访问 数据 库 的 过 程 本 身 是 作为 
存储 过 程 保存 在 数据 库 服 务 器 中 的 ， 而 客 
户 端 采用 一 种 类 似 远 程 调用 的 方式 对 该 存 
储 过 程 进行 调用 ( 图 2 )。 换 句 话 说， 数据 
库 服务 器 与 客户 端的 界限 ， 在 位 置 上 有 所 
不 同 。 








VoltDB 存储 过 程 


























| VoltDB 集群 内 存 
| VoltDB 集群 内 存 
VoltDB 集群 内 存 


妈 2 VoltDB 架构 






























仿 VoltDB 中 的 编程 
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接 下 来 我们 来 看 看 在 这 一 极端 设计 原则 下 ，VoltDB 的 编程 到 底 是 如 何 进行 的 。 

















VoltDB 的 应 用 程序 ， 基 本 上 是 采用 图 3 这 样 的 结构 。 要 构筑 一 个 应 用 程序 ， 需 要 准备 下 列 
部 件 。 


(1) 数据 库 结 构 定 义 : 用 于 定义 数据 库 的 SQL 文件 ， 内 容 基 本 上 是 SQL 的 CREATE TABLE 
语句 。 此 外 ，CREATE INDEX 和 CREATE VIEW 也 是 可 以 使 用 的 。 

(CO) 存储 过 程 : 用 Java 编写 的 存储 过 程 。 关 于 存储 过 程 的 内 容 我 们 稍 后 会 详细 讲解 ， 基 本 
上 是 负责 构造 SQL 语句 并 执行 它 。 当 然 ， 由 于 存储 过 程 采用 Java 来 编写 ， 自 然 可 以 在 
服务 器 端 执行 更 加 复杂 的 逻辑 。 

(3) 工程 定义 : 一 个 名 为 project.xml 的 XML 文件 。 在 这 个 文件 中 定义 了 数据 库 定义 文件 名 、 
存储 过 程 名 、 数 据 库 分 割 基准 字段 等 信息 。 

(4) 客户 端 代码 : 客户 端的 源 代码 ， 用 Java 编写。 对 VoltDB 的 访问 可 以 使 用 org.voltdb 包 
所 提供 的 功能 。 






































将 上 述 (1) 至 (3) 的 信息 提交 给 一 个 叫做 VoltCompiler 的 程序 ， 就 可 以 生成 叫做 “目录 ” 
( catalog ) 的 服务 顺 端 程序 (jar 文件 )。 此 外 ，VoltCompiler 中 还 需要 指定 下 列 内 容 : 





(a) 构成 集群 的 节点 数量 
(b) 每 个 节点 的 分 区 数量 
(c) 集群 “首领 ”的 主机 名 
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上 述 信息 需要 在 编译 时 指 ”数据 库 结构 定义 、 
定 ， 这 意味 着 在 NoSQL 中 十 分 存储 过 程 、 


5 工程 定义 文件 客户 端 代码 
常见 的 在 运行 时 根据 需要 添加 方 
点 的 动态 可 扩展 性 ， 这 在 VoltDB RN 人 
> 上 上司 * oltCompller ava 编译 
中 是 无 法 实现 的 。 -一 区 党 一 时 | 


在 文档 中 ， 关 于 改变 集群 节 目 是 | 客户 端 程序 
点 数量 的 步骤 是 这 律己 的 : 图 3 VoltDB 应 用 程序 结构 

中 a 将 数据 库 输出 至 文件 

@) 修改 节点 数 并 重新 生成 目录 

@) 重新 启动 数据 库 

由 从 文件 加 数据库 载 人 数据 




























































































如 果 要 对 数据 库 结 构 定 义 进 行 修改 ， 也 需要 按照 上 面 的 步骤 来 进行 操作 。 





如 果 你 习惯 了 MongoDB 等 NoSQL 数据 库 的 灵活 性 ， 就 会 觉得 仅仅 是 为 了 修改 结构 定义 和 
集群 三 点 数 就 要 这 样 操 作 实 在 是 太 麻 烦 了。 不 过 与 此 同时 ， 文 档 中 也 写 道 :“VoltDB 在 2 到 12 
个 节点 的 环境 下 能 够 发 挥 最 大 效率 ， 用 10 个 节点 就 可 以 实现 100 万 个 QPS ( 每 秒 查 询 数量 )， 
大 多 数 情 况 下 这 样 的 性 能 已 经 可 以 满足 需要 ”。 也 就 是 说 ， 用 少量 的 节点 数量 就 能 实现 压倒 性 的 
性 能 ， 因 此 灵活 性 也 就 显得 不 那么 重要 了 。 从 某 种 意义 上 说 ， 这 样 的 思路 和 NoSQL 正好 是 相互 
对 立 的 两 个 极端 。 
































Hello VoltDB! 





























下 面 我 们 来 看 看 实际 的 VoltDB 程序 。 图 4 到 图 8 就 是 VoltDB 的 Hello World 程 序 。 具体 来 说 ， 
就 是 用 Insert 存储 过 程 将 语言 名 称 和 该 语言 对 应 的 HelloWorld 写 和 数据库， 然后 用 Select 存储 
过 程 读 出 语言 名 称 对 应 的 HelloWorld。 

















4 的 数据 库 结 构 定义 是 一 个 简单 的 SQL 中 的 CREATE TABLE HELLOWORLD ( 





CREATE TABLE ( 创建 表 ) 语句 ， 没 有 什么 难点 吧 。 图 ee i 
5 和 图 6 是 用 Java 编写 的 存储 过 程 定义 。 DIALECT CHAR(15) NOT NULL, 


PRIMARY KEY (DIALECT) 
VoltDB 的 存储 过 程 定义 包括 下 列 要 素 : ) ; 
妈 4 数据 库 结构 定义 ( helloworld.ddl ) 























口 对 org.voltdb 包 的 import 
口 用 @Procinfo 指定 分 区 
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‘3 


的 类 


口 定义 存储 过 程 本 体 的 run 方法 








其 中 ， 有 必要 对 @ProcInfo 部 分 
做 一 些 说 明 。VoltDB 是 将 数据 库 分 
地 配置 在 集群 
程 所 进行 的 
操作 仅 限 于 对 单一 分 区 进行 访问 时 ， 








中 的 节点 上 的 。 当 存储 过 





VoltDB 可 以 发 挥 最 佳 性 能 。 因 此 ， 
如 果 要 在 纺 




















np 








使 月 





日 @ProcInfo 记 法 。 


project.xml 中 记载 了 关于 数据 库 


自 


Co 





结构 、 存 储 过 程 、 分 区 等 信 | 


import org.voltdb.*; 


@ProcInfo( 
partitionInfo 
singlePartition 


"HELLOWORLD .DIA 
true 


) 
public class Select extends VoltPro 


public final SQLStmt sql = new SQ 
SEBECTNHEDIONWORIDEEROMIHENE 
WHERESNOMARECIH 

8 


public VoltTable[] run(String lan 
throws VoltAbortException { 
voltQueueSQL(sql, languag 





口 定义 一 个 继承 VoltProcedure 


译 时 指定 某 个 存储 过 程 是 
否 仅 访问 单一 分 区 ， 以 及 该 分 区 的 分 
1 基准 是 哪 张 表 的 哪个 字段 ， 就 需要 


import org.voltdb.*; 


@ProcInfo(l 
bar ren ion 
singlePartition 


hENEOWORED DIANECIE: Oe 
true 


) 


public class Insert extends VoltProcedure { 


public final SQLStmt Sql new SQLStmt( 
NSERTTINTONHENIOWORDD EVALUESH G0 
)8 


public VoltTable[] run(String hello, 
String world, 
String language) 
throws VoltAbortException { 
voltQueueSQL(sql, hello, world, 
language); 
VollibEXEcCubesuEE 全 
return null; 














} 
} 
图 5 Insert 存储 过 程 ( Insert.java ) 
EEG: 0 <?xml version="1.0"?> 
<project> 
<database name="database'> 
<schemas> 
cedure { <schema path="'helloworld.sql' /> 
</schemas> 
on <procedures> 
<procedure class="'Insert' /> 
<procedure class="'Select' /> 
</procedures> 
guage) <partitions> 


<partition table="HELLOWORLD'" 


e):; column="DIALECT"' /> 





return voltExecuteSQL(); </partitions> 
} </database> 
业 </project> 
图 6 ”Select 存储 过 程 ( Select.java ) 图 7 程 定 义 ( project.xml ) 











客户 端 代码 则 比较 简单 。 基 本 上 























， 对 数据 库 的 访问 ， 只 是 使 用 callProcedure() 方法 ， 对 








project.xml 中 定义 的 存储 过 程 进行 调 月 
该 就 能 有 个 大 致 的 理解 了 。 
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而已。 关于 获取 结果 等 操作 ， 看 一 下 图 8 中 的 示例 代码 ， 应 
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LimpEormt 本 omd 本 VOLd 区 Ex 
import omdg 本 Volidb 本 CeTib 要 三 ， 


public class Client { 


5.4 SQL 数据 库 的 反击 


public static void main(String[] args) throws Exception { 


Wx 
* Instantiate a cl 
*/ 


ient and connect to the database. 


org.voltdb.client.Client myApp; 
myApp = ClientFactory.createClient(); 


myApp.createConnection("localhost", "program", "password"); 
Ws 

* Load the database. 

*/ 
myApp.callProcedure("Insert", "Hello", "World", "English"); 
myApp.callProcedure("Insert", "Bonjour", "Monde", "French"); 
myAppacalilineoeedu eG Jmsent se koa MUO 0 Soames 
myaAppaealilineoeedu el Insert GaOcMondoc ealnan 
myApp.callProcedure("Insert"," 民 人 i 石 六",，" 世 界 "，"Japanese"); 
Wx 


* Retrieve the message. 


*/ 


final ClientResponse response 


if (response.getStatus() 


myApp.callProcedure("Select", 
Spamuisn ai 
!= ClientResponse.SUCCESS ){ 


System.err.printin(response.getStatusString()); 
System.exit(-1); 


final VoltTable results[] = response.getResults(); 


if (results.length 


ly 


System.out.printf("I can't say Hello in that language."); 
System.exit(-1); 


} 


VoltTable resultTable 


VoltTableRow row 
System.out.printf(" 


-一 





8 








客户 端 代 码 ( Client.java ) 





心性 能 测试 


results[0]; 
resultTable.fetchRow(0):; 

'%s, %sl¥n", row.getString("hello"), 
powage tS Cm wo lo ay 助 二 





在 VoltDB 的 官方 网 站 (https://Vvoltdb.com/blog/key-value-benchmarking ) 中 ， 刊 登 了 与 NoSQL 





E 能 测试 结果 。 不 过 ， 需 要 注意 的 是 ，VoltDB 和 Cassandra 在 擅长 





的 代表 Cassandra 进行 对 比 的 性 
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处 理 的 对 象 方面 是 有 所 不 同 的 。 





例如 ,VoltDB 是 内 存 型 数据 库 ,Cassandra 则 不 是 。Cassandra 无 需 定 义 数 据 库 结构 ,比较 灵活 ， 
VoltDB 则 不 是 。 在 对 比 中 需要 注意 上 述 这 几 点 。 


VoltDB 和 Cassandra 在 以 下 三 种 性 能 测试 中 进行 了 对 比 。 








单纯 键 -~ 值 : VoltDB 具备 用 于 实现 键 - 值 存储 所 需 的 充足 性 能 ， 因 此 对 用 VoltDB 实现 的 
键 - 值 存 储 与 Cassandra 进行 对比。 测试 内 容 为 用 50B 的 键 和 12KB 的 值 进行 50 万 对 的 访问 
和 更 新 。 在 单 节点 .3 节点 (无 复制 ) 和 3 节点 (有 复制 ) 这 三 种 条 件 下 对 比 5 分 钟 的 处 理 总 数 。 














多 个 整数 列 :用 50 个 32 位 整数 作为 值 来 代替 单纯 键 - 值 进行 对 比 。 对 比 条 件 依 然 是 单 节 点 、 
3 节点 〈 无 复制 ) 和 3 节点 (有 复制 ) 三 种 。 











多 个 整数 列 ( 批 处 理 ): 依然 是 用 50 个 32 位 整数 作为 值 ， 但 不 同 的 是 对 每 个 键 进行 10 次 
访问 和 更 新 。 对 比 条 件 依然 是 单 节 点 、3 节点 〈 无 复制 ) 和 3 节点 《有 复制 ) 三 种 。 











上 述 3 次 测试 的 结果 如 表 1 至 表 3 所 示 。 虽 然 集群 的 构成 只 有 3 个 节点 ， 规 模 比 较 小 ,但 
在 对 比 的 范围 内 ， 最 好 的 情况 下 可 以 跑 出 相当 于 Cassandra 性 能 16 倍 以 上 的 成 绩 。 不 过 ， 这 个 
测试 的 目的 ， 是 为 了 证 明 使 用 SQL 的 数据 库 在 云 计算 环境 下 也 并 不 慢 ， 而 并 不 代表 对 大 家 接 下 
来 开发 的 应 用 程序 数据 库 来 说 ，VoltDB 就 是 最 佳 选 择 ， 这 一 点 请 大 家 注意 。 




















表 1 键 - 值 性 能 测试 ( 5 分 钟 事务 数量 ) 




















集群 配置 VoltDB Cassandra 性 能 比 
1 节点 17000 7940 2.2 倍 
3 节点 (无 复制 ) 19800 17400 1.1 倍 
3 节点 (有 复制 ) 12600 4450 2.8 售 


表 2 ”多 个 整数 列 性 能 测试 ( 5 分 钟 事务 数量 ) 
































集群 配置 VoltDB Cassandra 性 能 比 
1 节点 111000 24200 4.6 倍 
3 节点 〈 无 复制 ) 293000 38900 7.5 倍 
3 节点 (有 复制 ) 176000 24700 7.1 倍 

表 3 ”多 个 整数 列 ( 批 处 理 性 能 测试 ( 5 分 钟 事务 数量 ) 

集群 配置 VoltDB Cassandra 性 能 比 
1 节点 102000 13300 7.7 倍 
3 节点 (无 复制 ) 286000 17200 16 倍 
3 节点 (有 复制 ) 172000 13000 13 售 
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食 小 结 

















VoltDB 是 一 种 内 存 型 数据 库 ， 且 客户 端 无 法 直接 调用 SQL， 这 与 传统 的 RDBMS 在 设计 思 
想 上 有 很 大 差异 。 然 而 相对 地 ， 它 却 展 现 出 了 优秀 的 性 能 ， 并 可 以 通过 增加 节点 数量 ， 实 现 与 
NoSQL 相当 的 线性 扩展 。 











不 过 ， 由 于 数据 基本 上 都 是 保存 在 内 存 中 的 ， 因 此 其 容纳 的 数据 总 量 会 受到 服务 器 安装 的 
内 存 容 量 的 限制 。 此 外 ， 虽 然 它 具备 复制 和 快照 功能 ， 但 由 硬件 故障 造成 数据 丢失 的 危险 性 ， 
感觉 比 传统 的 数据 库 要 高 一 些 。 而 且 ， 在 数据 库 结构 、 构 成 集群 的 节点 数量 等 系统 结构 的 灵活 
性 方面 ， 和 NoSQL 等 相 比 依然 稍 逊 一 筹 ， 因 此 必须 从 一 开始 就 对 数据 库 结 构 进 行 精确 的 设计 。 











虽然 性 能 很 高 ， 但 却 很 难 掌控 ， 从 这 个 意义 上 来 看 ，VoltDB 可 以 说 是 数据 库 中 的 “方程 
式 赛车 ”了 。YVoltDB 才刚 刚 诞 生 不 久 ， 今 后 也 有 进行 诸多 改善 的 计划 。 据 说 在 这 里 提出 的 数据 
库 结 构 和 集群 结构 缺乏 灵活 性 这 一 点 ， 也 将 得 到 改善 ， 在 操作 接口 上 也 考虑 支持 JSON 等 等 。 
VoltDB 可 以 说 是 今后 值得 期 待 的 一 种 数据 库 。 
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SS? 


9.9 ” memcached 和 它 的 伙伴 们 


BY 


N 


SS 
SS 


在 程序 的 实现 中 ， 经 常会 忽略 程序 的 运行 时 间 。 即 便 采 用 类 似 的 实现 方法 ， 有 时 候 运 行 ; 
度 也 会 相差 很 多 。 大 多 数 情 况 下 ， 这 一 速度 上 的 差异 是 由 数据 访问 速度 的 差异 所 导致 的 。 


洲 





在 程序 中 ,虽然 数据 访问 所 消耗 的 时 间 看 上 去 差不多 ,但 实际 上 却 有 很 大 的 差别 。 这 是 因为 ， 
数据 访问 所 需要 的 时 间 ， 与 数据 存放 的 位 置 有 很 大 关系 。 例 如 ， 内 存 中 的 数据 与 硬盘 上 的 数据 ， 
其 访问 所 需 的 时 间 可 以 相差 数 百 万 倍 之 多 。 











以 机 械 旋转 方式 工作 的 人 硬盘， 从 驱动 磁头 到 将 盘 片 旋转 到 适当 的 扇 区 ， 需 要 儿 毫 秒 的 时 间 ， 
从 CPU 的 速度 来 看 这 些 时 间 都 是 需要 等 待 的 ， 而 对 内 存 的 访问 仅仅 需要 几 纳 秒 的 时 间 。 相 比 之 
下 ， 硬 盘 简 直 就 像 停 止 不 动 一 样 。 此 外 ， 和 位 于 外 部 的 内 存 相 比 ， 位 于 CPU 内 部 的 寄存 顺和 高 
速 缓存 的 访问 速度 又 能 快 上 几 倍 。 








仿 用 于 高 速 访问 的 缓存 
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话 虽 如 此 ,但 内 存 的 访问 速度 再 快 ， 要 准备 和 硬盘 同等 容量 的 内 存 ， 将 所 有 数据 都 保存 在 
内 存 中 ， 目 前 来 看 还 是 不 现实 的 ”。 


所 笠 的 是 ， 对 数据 的 访问 具备 “局 部 性 ”的 特点 。 也 就 是 说 ， 一 个 操作 中 所 访问 的 数据 大 
多 是 可 以 限定 范围 的 。 即 便 数据 的 量 很 大 ,但 大 多 数 的 操作 都 是 仅仅 对 一 部 分 数据 进行 频繁 的 
访问 ， 而 几乎 不 会 去 碰 其 余 的 数据 。 














既然 如 此 ， 如 果 将 这 些 频繁 访问 的 数据 复制 到 一 个 可 以 高 速 访问 的 地 方 ， 平 时 就 在 那个 地 
方 进行 操作 的 话 , 就 有 可 能 为 性 能 带 来 大 幅度 的 改善 。 像 这 样 “ 能 够 高 速 访问 的 数据 存放 地 点 ”， 
被 称 为 缓存 ( cache ) “缓存 ”这 个 词 的 英文 cache， 和 “现金 ”的 英文 cash 发 音 相同 , 但 拼写 
方法 是 不 同 的 。cache 一 词 来 自 法 语 ， 原 来 是 “储藏 地 ”"、“ 仓 库 ” 的 意思 。 最 近 的 CPU 中 为 了 




















Qz 不 过 ， 现 在 的 服务 器 所 配置 的 内 存 容量 ， 已 经 超过 了 过 去 主流 硬盘 的 容量 。 此 外 ， 比 硬盘 访问 速度 快 几 倍 的 闪 
存 式 SSD (Solid State Drive， 固 态 硬盘 ) 也 已 经 开始 普及 。 说 不 定 在 不 久 的 将 来 ， 现 在 的 “常识 ”就 会 被 颠覆 。 
( 原 书 注 ) 











图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


5.5 memcached 和 它 的 伙伴 们 








高 速 访问 数据 和 指令 ， 都 配备 了 一 定 的 高 速 缓存 ， 但 缓存 一 词 本 身 ， 应 该 是 泛 指 所 有 用 于 加 速 
数据 访问 的 手段 。 
提 到 缓存 ， 往 往 会 包含 以 下 含义 : 


口 可 以 高 速 访问 。 

口 以 改善 性 能 为 目的 。 

口 仅 用 于 临时 存放 数据 ， 当 空间 已 满 时 可 以 任意 丢弃 多 出 来 的 数据 。 
口 数据 是 否 存 放 在 缓存 中 ， 不 会 产生 除 性 能 以 外 的 其 他 影响 。 











数据 库 的 职责 是 用 来 永久 存储 数据 ， 不 可 能 将 数据 任意 丢弃 。 绥 存 则 不 同 ， 它 具有 较 大 的 
随意 性 。 


QQ memcached 











在 提供 缓存 功能 的 软件 中 ， 比 较 流行 的 是 memcached。memcached 是 由 美国 Danga 
Interactive 公司 在 Brad Fitzpatrick ( 1980 一 “) 的 带领 下 开发 的 一 种 “内 存 型 键 -- 值 存储 ”软件 ， 
主要 面向 Web 应 用 程序 ， 对 数据 库 查 询 的 结果 进行 缓存 处 理 。 


当 对 数据 库 进行 查询 时 ， 数 据 库 服务 器 会 执行 下 列 操作 : 中 解析 SQL 语句 ; 回访 问 数据 ; 
@ 提 取 数 据 ;(X 根据 需要 ) 对 数据 进行 更 新 等 操作 。 考虑 到 数据 库 中 的 数据 大 多 存放 在 磁盘 上 ( 当 
然 ， 数 据 库 服 务 器 本 身 也 有 一 定 的 缓存 机 制 )， 这 样 的 操作 开销 是 非常 大 的 。 

另 一 方面 ， 近 年 来 ， 随 着 服务 器 及 内 存 价 格 的 下 降 ， 相 比 购买 昂贵 的 高 性 能 服务 器 来 说 ， 
将 查询 结果 缓存 在 内 存 中 就 可 以 以 低 成 本 实现 高 性 能 。 因 此 ，memcached 并 不 是 一 个 真正 意义 
上 的 键 - 值 存储 数据 库 ， 而 是 主要 着 眼 于 以 缓存 的 方式 来 改善 数据 访问 的 性 能 。 

用 于 实现 缓存 功能 的 memcached 具备 以 下 特征 : 
口 以 字符 串 为 对 象 的 键 - 值 存 储 。 
口 数据 只 保存 在 内 存 中 ， 重 启 memcached 服务 器 将 导致 数据 于 失 。 
口 可 以 对 数据 设置 有 效 期 。 
口 达到 一 定 容 量 后 将 清除 最 少 被 访问 的 数据 。 
口 键 的 长 度 上 限 为 230B， 值 的 长 度 上 限 为 1MB。 
memcached 能 够 接受 的 命令 如 表 1 所 示 。 


memcached 非常 好 用 ， 应 用 也 非常 广泛 。 根 据 其 主页 上 的 介绍 ， 表 2 所 示 的 这 些 服务 都 
使 用 了 memcached。 这 些 都 是 非常 著名 的 网 站 或 公司 ， 当 然 ， 在 很 多 没有 那么 有 名 的 网 站 中 ， 
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memcached 的 使 用 也 十 分 广泛 。 
表 1 memcached 命 令 
名 称 功 能 
set 设置 数据 
add 插入 新 数据 
replace 更 新 现 有 数据 
append 在 值 之 后 添加 数据 
prepend 在 值 之 前 添加 数据 
get 获取 数据 
gets 获取 数据 ( 有 唯一 ID ) 
cas 更 新 数据 ( 指定 唯一 ID ) 
delete 删除 数据 
incr 将 数据 视 为 数值 并 累加 
decr 将 数据 视 为 数值 并 减少 
stats 获取 统计 数据 
flush all 清空 数据 
version 版 本 信息 
verbosity 设置 日 志 级 别 
quit 结束 连接 





表 2 ”使 用 memcached 的 服务 及 企业 
服务 名 称 或 企业 名 称 





Bebo, Craigslist, Digg, Flickr, LiveJournal, mixi, Typepad, Twitter, Wikipedia, Wordpress, Yellowbot, YouTube 


全 示例 程序 


memcached 可 以 通过 C、C++、PHP 、Java、Python 、Ruby 、Perl 、Erlang 、Lua 等 语言 来 访 
问 。 此 外 ，memcached 的 通信 协议 是 由 简单 的 文本 形式 构成 的 ， 使 用 如 telnet 等 方式 也 很 容易 
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进行 访问 ， 要 开发 新 的 客户 端 也 非常 容易 。 除 了 上 述 列举 的 语言 之 外 ， 还 有 很 多 语 
memcached 客户 端 库 。 


下 面 我 们 来 看 看 访问 memcached 客户 端 程序 的 示例 吧 ( 


访问 memcached 的 功能 ， 在 这 里 我 们 用 的 是 一 个 叫做 memcache 的 库 。 正 如 图 1 最 下 方 的 注释 























一 


言 也 提供 了 


图 1 )。 有 很 多 库 都 提供 了 用 Ruby 


所 写 的 ， 对 于 同时 执行 查询 和 更 新 操作 的 数据 进行 缓存 时 一 定 要 注意 ， 否 则 一 不 小 心 就 容易 造 
成 缓存 和 数据 库 之 间 的 数据 不 匹配 。 通 过 memcache 库 也 可 以 很 容易 地 实现 事务 机 制 。 下 面 我 








们 来 重新 实现 一 下 prepend 命令 吧 


UU 

















(图 2)。 
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require "memcache 


# 连接 memcached 
MCache = Memcache.new(:server => "localhost:11211") 


# 对 userinfo 进 行 带 缓存 查询 

def userinfo(userid) 
# 使 用 “user:《userid> ”为 键 来 访问 缓存 
result = MCache.get("user:" + userid) 


# 如 果 不 存在 于 缓存 中 则 返回 ni] 

unless result 
# 缓存 中 不 存在 ,直接 查询 数据 库 
result = DB.select("SELECT * FROM users WHERE userid = ?", userid) 
# 将 返回 结果 存放 在 缓存 中 ,以 便 下 次 从 缓存 中 查询 
MCache.add("user:" + userid, result) 

end 

result 

end 


# 如 果 对 Userinfo 进 行 更 新 ,需要 同时 更 新 缓存 
1 ”Ruby 编写 的 memcached 客户 端 





到 











def mc_prepend(key, val) 
loop do 
# :设置 :cas 标 志 并 获取 唯一 ID 
= MCache.get(key, :cas => true) 
修改 值 并 用 cas 命 令 设 置 
唯一 ID 可 通过 memcache_cas 获 取 
= MCache.cas(key, val + v, :Cas => v.memcache_cas) 
# 设置 失败 则 返回 ni1 (循环 ) 
return v unless v.nil? 
end 
end 


< 半 厅 < 





区 | 


Nl 





2 memcached 事务 示例 











仿 对 memcached 的 不 满 


和 其 他 大 多 数 软件 一 样 ， 随 着 使 用 的 不 断 增 加 ，memcached 也 遇 到 了 当初 从 未 设想 过 的 应 
用 场景 ， 从 而 也 招来 了 很 多 不 满 。 对 memcached 的 不 满 主要 有 下 列 这 些 : 











数据 长 度 : 对 键 和 值 的 长 度 分 别 限制 在 230B 和 1MB 过 于 严格 。 越 是 大 的 数据 查询 起 来 就 
要 花 很 长 的 时 间 ， 从 这 个 角度 来 说 ， 对 这 样 的 数据 进行 缓存 的 需求 反而 比较 高 。 








分 布 : 一 台 服 务 需 的 内 存 容 量 是 有 限 的 ， 如 果 能 将 缓存 分 布 到 多 台 服 务 器 上 就 可 以 增加 总 
的 数据 容量 。 然 而 memcached 并 没有 提供 分 布 功能 。 
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持久 性 : 顾名思义 ，memcached 只 是 一 个 缓存 ， 重 启 服务 右 数 据 就 会 丢失 ， 且 为 了 保持 一 


定 的 缓存 大 小 ， 还 会 自动 舍弃 旧 数 据 。 





不 过 ， 当 对 数据 库 进 行 访问 来 填充 缓存 的 开销 超过 一 定 程度 时 ， 缓 存 的 损失 就 要 付出 较 高 
的 代价 。 为 了 克服 这 一 问题 即便 舍弃 缓存 这 一 最 初 的 目的 ) 恒 产生 了 对 数据 进行 持久 化 的 需求 。 








像 最 后 的 “持久 性 ” 
是 会 产生 各 种 各 样 类 似 的 要 求 。 








Si 


在 memcached 的 范围 内 ， 对 这 些 问 
题 ， 主 要 是 采取 在 客户 端 方面 进行 努力 来 
应 对 。 例 如 ，Ruby 的 memcache 库 中 ， 提 
供 了 一 个 叫做 “SegmentedServer” 的 功能 ， 
通过 将 键 所 对 应 的 值 分 别 存放 到 多 台 服 务 
器 中 来 文 持 长 度 很 大 的 值 。 此 外 ， 还 可 以 
根据 由 键 计算 出 的 某 种 散 列 值 ， 在 客户 端 
级 别 上 实现 对 分 布 式 数据 存储 的 支持 。 其 
算法 如 图 3 所 示 。 





























这 一 点 ， 虽 然 已 经 完全 脱离 了 缓存 的 范畴 ， 但 随 着 其 应 用 领域 的 扩展 ， 


# 表示 算法 的 简单 Ruby 代 码 
class DistMemcache 
def add(key, value) 


en 
# 


end 





图 3 














# 由 键 计算 散 列 值 

hash = hash_func(key) 

# 根据 散 列 值 选择 服务 器 

server = @servers[hash % @servers.sizel] 
# 向 选择 的 服务 器 发 送 命令 

server.add(key, value) 


d 
对 其 他 的 命令 采用 同样 的 方法 





memcache 在 客户 端 级 别 实现 分 布 


对 于 持久 性 这 一 点 ， 在 客户 端 级 别 卜 怕 是 无 能 为 力 了 。 不 过 新 版 本 的 memcached 中 正在 
对 数据 存储 功能 进行 抽象 化 ， 从 而 实现 将 数据 以 文件 及 数据 库 等 形式 进行 保存 ， 重 启 服务 器 也 


不 会 丢失。 


仿 memcached 替代 服务 器 
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刚才 已 经 讲 过 ，memcached 的 协议 是 基于 文本 的 ， 非 常 简单 "， 因 此 大 多 数 键 - 值 存储 数据 
库 都 可 以 支持 memcached 协议 。 下 面 我 们 来 介绍 其 中 的 几 种 数据 库 软 件 。 


1. memcachedb 





名 字 只 差 了 一 个 字母 ， 很 容易 搞 混 。 这 是 一 款 用 Berkeley DB 来 保存 数据 的 memcached 替 
代 服 务 器 。memcachedb 原本 是 由 memcached 改造 开发 而 来 ， 目 的 是 为 了 应 对 memcached 不 支 


持 数据 持久 性 的 问题 。 




















@ 为 了 提高 效率 ， 也 提供 了 二 进 制 协议 。( 原 书 注 
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2. ROMA 





我 所 参与 的 乐天 技术 人 研究 所 开发 的 键 - 值 存储 ROMA ， 也 支持 通过 memcached 协议 来 进行 
访问 。ROMA 是 一 种 重视 可 扩展 性 的 键 - 值 存储 ， 其 数据 库 是 由 P2P 方式 的 节点 集合 所 构成 的 。 
数据 在 多 个 节点 上 保存 副本 , 即便 由 于 一 些 故障 导致 一 个 节点 退出 服务 ,也 不 会 造成 数据 的 丢失 。 
memcached 只 是 在 客户 端 一 侧 实 现 了 分 布 ， 相 对 而 言 ，ROMA 则 是 在 服务 器 一 侧 实现 了 分 布 和 
元 余 化 。 











ROMA 服务 需 是 用 Ruby 进行 开发 的 ， 采 用 了 可 插 式 (pluggable ) 架构 。 通 过 用 Ruby 编写 
插件 ， 并 配置 到 服务 器 上 ， 就 可 以 很 容易 地 实现 数据 保存 方法 的 选择 、 服 务 器 端 命令 的 追加 等 。 























采用 Ruby 进行 实现 ， 大 家 可 能 会 担心 性 能 方面 的 问题 。ROMA 是 在 乐天 内 部 的 各 种 场景 
下 运用 的 ， 由 于 采用 多 个 节点 分 担负 和 荷 ， 实 际 运用 中 并 没有 发 生性 能 方面 的 问题 。 其 实 ， 在 乐 
天 这 样 大 规模 数据 中 心 的 应 用 中 ， 发 生硬 件 故 障 、 访 问 量 集中 导致 进程 终止 等 问题 几乎 是 家 常 
便 饭 ， 因 此 比 起 性 能 来 说 ,，ROMA 更 加 重视 实现 实际 运用 中 的 稳定 性 和 灵活 性 。 

















3. Flare 


Flare 是 由 GREE? 的 CTO 藤本 真 树 领导 开发 的 一 种 memcached 替 代 键 - 值 存 储 。 其 特征 如 下 : 








口 使 用 Tokyo Cabinet 实现 数据 持久 性 

口 将 数据 复制 到 多 台 服 务 器 上 实现 数据 分 区 

口 无 需 停止 系统 就 可 以 添加 服务 器 的 动态 重组 机 制 
口 节点 监控 + 故障 转移 ( failover ) 

口 可 支持 大 于 256B 的 键 和 大 于 1MB 的 值 











根据 文档 ，GREE 使 用 的 Flare 由 12 个 节点 (6 个 主 节点 、6 个 从 节点 ) 构成 ， 目 前 正在 对 
超过 2000 万 个 键 和 1GB 级 别 的 数据 ， 以 峰值 每 秒 500 ~ 1000 次 访问 的 频率 进行 试 运行 。 在 这 
样 的 条 件 下 ， 系 统 基本 上 没有 什么 负担 ， 而 且 在 运行 中 频繁 更 换 服务 器 ， 也 没有 对 系统 的 运转 
产生 任何 问题 。 











4. Tokyo Tyrant 





Tokyo Tyrant 是 由 平 林 干 雄 开 发 的 一 种 网 络 型 键 - 值 存 储 。 很 多 键 - 值 存储 都 在 使 用 的 
DBM 库 Tokyo Cabinet 也 是 平 林 先 生 开发 的 。 相 对 而 言 ，Tokyo Tyrant 提供 了 通过 网 络 进行 访 
问 的 功能 。Tokyo Tyrant 文 持 memcached 协议 及 HTTP 协议， 从 这 个 角度 来 看 ， 也 可 以 视 为 











GD GREE 是 日 本 的 一 家 社交 网 站 ( http://gree.jp )， 与 中 国 的 “格力 电器 ”无 关 。 
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memcached 的 蔡 代 服务 。 


Tokyo Tyrant 虽然 需要 写 和 磁盘， 但 却 能 够 实现 与 memcached 同等 的 性 能 。 


5. Kumofs 


kumofs 是 由 筑波 大 学 的 古 桥 上 页 之 ( 现 供职 于 美国 Treasure Date 公司 ) 开发 的 一 种 键 - 值 
存储 ， 实 现 了 持久 性 和 宛 余 故障 容忍 性 。 


用 








C++ 编写 的 kumof， 仅 用 1 个 节点 就 能 够 实现 与 memcached 几乎 同等 的 性 能 ， 还 可 以 

















通过 增加 区 点 来 进一步 提高 性 能 。 此 外 ， 它 还 能 够 在 不 停止 系统 运行 的 情况 下 ， 进 行 节 点 增加 、 
恢复 等 操作 ， 从 而 对 访问 量 的 增加 等 情况 作出 灵活 的 应 对 。 
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看 了 上 面 这 些 例子 ， 我 们 可 以 总 结 一 下 ， 大 家 对 memcached 的 不 满 主要 体现 在 以 下 几 个 


方面 : 


中 
2 
® 





缺乏 持久 性 
不 支持 分 布 
数据 长 度 有 限制 





于 是 ， 为 了 解决 这 些 不 满 ， 就 出 现 了 各 种 各 样 的 蔡 代 服务 占 软 件 。 然 而 ， 这 里 希望 大 家 
不 要 误会 ， 这 些 不 满 决 不 等 于 是 memcached 的 缺点 。 顾 名 思 义 ，memcached 原本 是 作为 数据 
缓存 服务 需 诞 生 的 ， 因 此 ， 缺 乏 持 久 性 、 不 支持 分 布 ， 以 及 对 数据 长 度 的 限制 ， 都 是 作者 原 


本 的 意 























图 。 可 以 说 ， 之 所 以 会 出 现 这 些 不 满 ， 都 是 试图 将 memcached 用 在 超出 原本 目的 的 场 











景 中 所 导致 的 结果 。 这 些 不 满 的 存在 表明 ， 大 多 数 的 使 用 案例 中 ， 用 户 所 需要 的 不 仅仅 是 一 
个 缓存 数据 库 ， 而 是 一 个 支持 持久 性 和 分 布 式 计算 的 真正 意义 上 的 键 - 值 存储 数据 库 。 而 之 
所 以 选择 了 原本 并 不 适合 这 一 目的 的 memcached， 无 非 是 被 memcached 的 高 速 性 所 吸引 的 


结果 。 











也 就 是 说 ， 对 同时 满足 : 


中 
© 
® 


高 速 
支持 分 布 
持久 性 
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此 
是 能 够 以 更 加 丰富 的 数据 结构 作为 值 来 使 用 的 话 ， 大 家 也 一 定 是 非常 喜欢 的 。 能 满足 上 述 这 些 
需求 的 ， 就 是 Redis。Redis 是 意大利 程序 员 Salvatore Sanfilippo 开发 的 一 种 内 存 型 键 - 值 存 储 ， 
其 特征 如 下 : 


内 存 型 : 数据 库 的 操作 基本 都 在 内 存 中 进行 ， 速 度 非常 快 。 






































支持 永久 化 :上 面 提 到 数据 库 的 操作 是 在 内 存 中 进行 的 ,但 是 它 提供 了 异步 输出 文件 的 功能 。 
发 生 故 障 时 ， 最 后 输出 的 文件 之 后 的 变更 会 丢失 。 虽 然 并 不 具备 严格 的 可 靠 性 ， 但 却 可 以 避免 
数据 的 完全 丢失 。 

支持 分 布 : 现行 版 本 和 memcached 一 样 支 持 在 客户 端 一 侧 实 现 对 分 布 的 支持 。Redis Cluster 
分 布 层 的 开发 还 在 计划 中 。 有 具备 服务 顺 端 复制 功能 。 


除 字 符 串 之 外 的 数据 结构 : 除了 字符 串 ，Redis 还 支持 列表 (1list， 字 符 串 数组 )、 集 (set， 
不 包含 重复 数据 的 集合 ) 有 序 集 (sorted set, 值 经 过 排序 的 集合 ) 和 散 列 表 (hash , 键 - 值 组 合 )。 
在 memcached 中 必须 强制 转换 为 字符 串 才 能 存放 的 数据 结构 ， 在 Redis 中 可 以 直接 存放 。 





























高 速 : 全 面 使 用 C 语言 编写 的 Redis 速度 非常 快 。 根 据 测 试 数据 ， 在 Xeon 2.5GHz 的 Linux 
计算 机 上 ， 每 秒 能 够 处 理 超过 5 万 个 请 求 。 在 另 一 个 测试 中 ， 对 单 节点 采用 60 个 线程 分 别 产 生 
10000 个 请 求 的 调用 , Redis 实现 的 每 秒 请 求 数量 达到 了 memcached 的 两 倍 。 而 同样 一 个 测试 中 ， 
memcached 的 成 绩 儿 乎 是 MySQL 的 10 倍 ， 从 这 个 角度 来 看 ，Redis 的 性 能 着 实 令 人 惊叹 。 














原子 性 : 由 于 Redis 内 部 是 采用 单线 程 实现 的 ， 因 此 各 命令 都 具备 原子 性 。 像 用 incr 命令 
对 值 进行 累加 而 干扰 其 他 请 求 的 执行 这 样 的 问题 是 不 会 发 生 的 。 











不 兼容 memcached 协议 : Redis 拥有 自己 的 数据 结构 ， 功 能 也 比较 丰富 ， 因 此 没有 采用 
memcached 协议 。 访 问 Redis 需要 借助 客户 端 库 ， 但 Redis 协议 也 是 基于 文本 的 简单 协议 (实际 
上 和 memcached 协议 很 相似 )， 因 此 无 论 各 种 语言 都 很 容易 支持 ， 包 括 Ruby 在 内 ， 很 多 语言 都 
提供 了 用 于 访问 Redis 的 库 的 功能 ( 表 3 )， 数 量 上 不 输 给 memcached。 





Redis 的 主页 上 列 出 了 一 些 实际 采用 Redis 的 企业 名 单 ， 如 表 4 所 示 。 其 中 ，Engine Yard 和 
GitHub 都 是 Ruby 开发 者 耳熟能详 的 公司 。 





表 3 ”提供 Redis 访 问 的 语言 表 4 ”采用 Redis 的 企业 
语言 名 称 企业 名 称 
C, C#, Clojure, Haskell, Io, Erlang, Java, Boxcar, craigslist, Dark Curse, Engine Yard, GitHub, guard 
JavaScript, Go, Perl, Lua, PHP, Python, lian, LLOOGG, OKNOtizie, RubyMinds, Superfeedr, Vidiow 
Ruby, Scala, Tcl iki, Virgilio Film, Wish Internet Consulting, Zoombu 
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之 前 已 经 讲 过 ，Redis 中 的 值 ， 除 了 字符 串 以 外 ， 还 支持 列表 、 集 、 有 序 集 、 散 列 等 数据 结构 。 











字符 串 : 将 字符 串 作 为 值 的 操作 和 memcached 几乎 是 一 样 的 。 不 知道 为 什么 ，Redis 中 没 
有 提供 在 值 之 前 添加 字符 串 的 prepend 命令 ， 也 许 是 因为 很 少 使 用 吧 。 实 在 需要 这 个 功能 的 话 ， 
也 可 以 通过 事务 来 实现 。 




















列表 : 相当 于 字符 串 数 组 。Redis 不 支持 如 数组 的 数组 这 样 的 山 套 数据 结构 ， 因 此 数组 的 元 
素 仅 限于 字符 串 。 











列表 是 可 以 对 左右 两 端 进行 PUSH ( 添加 一 个 元 素 ) 和 了 POP ( 取出 并 删除 一 个 元 素 ) 操作 的 ， 
因此 可 以 作为 队列 和 栈 来 使 用 。 


集 : 相当 于 不 允许 出 现 重 复元 素 的 集合 。 通 过 Redis 的 SADD 命令 添加 元 素 ， 用 SREM 命 


令 删 除 元 素 。 由 于 没有 定义 元 素 的 顺序 ， 因 此 使 用 取出 一 个 元 素 的 SPOP 命令 不 知道 会 取出 集 
中 的 哪个 元 素 。 











集合 之 间 也 可 以 进行 运算 ， 例 如 SINTER 可 以 得 到 两 个 集中 都 包含 的 元 素 ( 交集 )， 
SUNION 则 可 以 得 到 两 个 集中 属于 任意 一 个 集 的 元 素 (合集 )。 此 外 ， 还 可 以 用 SINTERSTORE/ 
SUNIONSTORE 命令 将 运算 结果 保存 到 另 一 个 键 中 。 











有 序 集 : Redis 从 1.1 版 开始 提供 的 一 种 有 序 的 集 (sorted set，Redis 术语 中 称 为 ZSET )， 
在 这 种 集中 会 将 元 素 都 视 为 数值 并 进行 排序 。 说 实话 我 不 知道 这 样 的 数据 结构 应 该 用 在 哪里 ， 
也 许 在 某 些 场 合 中 用 起 来 会 很 方便 吧 。 


























散 列表 : 散 列表 就 是 通过 键 来 查找 值 的 一 种 表 。 在 Redis 中 ， 散 列表 的 键 和 值 都 限定 为 字 
符 串 。 








将 上 述 特征 总 结 一 下 ， 与 只 能 存放 字符 串 键 值 对 的 memcached 相 比 ，Redis 是 一 种 高 速 、 
拥有 丰富 的 数据 结构 , 且 支 持 异 步 快照 功能 的 键 - 值 存 储 。 不 过 , Redis 也 并 非 万 能 的 数据 库 ,( 至 
少 截 至 到 目前 来 说 ) 还 不 具备 服务 器 端 Sharding (分布 ) 和 动态 重组 功能 ， 也 没有 实现 非常 高 
的 可 靠 性 。 








在 数据 不 要 求 有 很 高 的 可 靠 性 ( 也 就 是 说 ， 万 一 丢掉 一 些 数据 也 不 会 产生 严重 后 果 ) 的 情 
况 下 ，Redis 就 是 一 个 非常 理想 的 数据 库 。 从 memcached 的 使 用 实例 来 看 ， 这 样 的 领域 还 是 非 
常 广阔 的 。 
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Redis 的 命令 如 表 5 所 示 。 虽 然 形 式 非常 类 似 ， 但 数量 却 远 远 多 于 memcached 命令 。 
表 5 ”Redis 命 令 一 览 
命令 概 要 
连接 管理 
QUIT 结束 连接 
AUTH 简单 认证 ( 可 选 ) 
数据 库 操作 
DBSIZE 当前 DB 中 的 键 数量 
SELECT index 数据 库 选 择 
MOVE key index 将 键 移 动 到 index 的 DB 
FLUSHDB I 除 当 前 DB 中 的 全 部 键 
FLUSHALL I 除 全 部 DB 中 的 全 部 键 
适用 于 所 有 值 类 型 的 命令 
EXISTS key 检查 key 是 否 存在 
DEL key 删除 key 
TYPE key key 的 类 型 
KEYS pattern 列 出 与 pattern 相 匹配 的 键 
RANDOMKEY 随机 获取 一 个 键 





RENAME old new 


命名 键 (new 已 存在 则 舍弃 ) 





RENAMENX old new 





命名 键 new 已 存在 则 忽略 ) 































































































EXPIRE key sec 设置 有 效 期 
TTL key 剩余 有 效 期 
适用 于 字符 串 值 的 命令 
SET key val 将 val (字符 串 ) 赋值 给 key 
GET key 获取 key 相 对 应 的 值 
GETSET key val 将 val 赋值 给 key 并 获取 更 新 前 的 原始 值 
MGET keyl key2 … keyN 获取 多 个 key 相 对 应 的 值 
SETNX key val key 不 存在 时 更 新 val 
SETEX key time val 带 有 效 期 的 SET 
MSET keyl valuel key2 value2... keyN valueN 对 多 个 key 和 val 进 行 更 新 ( 原子 操作 ) 
MSETNX keyl valuel key2 value2 … keyN valueN ww val 进 行 更 新 ( 原子 操作 ， 其 中 任何 key 都 不 能 是 
INCR key 对 值 加 1 
INCRBY key int 对 值 加 int 
DECR key 对 值 减 1 
DECRBY key int 对 值 减 int 
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证 守 旋 概 ”要 

APPEND key val 在 值 末尾 追加 val 
SUBSTR key start end 获取 值 字 符 串 的 一 部 分 

适用 于 列表 值 的 命令 
RPUSH key val 名 列表 未 尾 追 加 val 
LPUSH key val 避 列 表 开头 追加 val 
LLEN key 列表 长 度 
LRANGE key start end 列表 中 指定 范围 内 的 元 素 
LTRIM key start end 将 列表 按 指定 范围 切割 
LINDEX key index 指定 位 置 的 元 素 
LSET key index val 可 指定 位 置 写 入 val 
LREN key count wal dh 表 开头 删除 count 个 val ( 0 为 删除 全 部 ， 负 数 为 从 末尾 开始 

删除 ) 
LPOP key 获取 并 删除 列表 开头 的 元 素 
RPOP key 获取 并 删除 列表 末尾 的 元 素 
BLPOP keyl key2 … keyN timeout 带 超 时 的 LPOP 
BRPOP keyl key2 ... keyN timeout 带 超 时 的 RPOP 
RPOPLPUSH keyl key2 从 key1 列 表 中 RPOP， 然后 LPUSH 到 key2 列 表 中 
适用 于 集 值 的 命令 
SADD key member 向 集 添加 元 素 
SREM key member 从 集中 删除 元 素 
SPOP key 从 集中 随机 删除 一 个 元 素 
SMOVE keyl key2 member 将 member 从 key1 集 移动 到 key2 集 ( 原子 操作 ) 
SCARD key 集 的 元 素数 
SISMEMBER key member key 集 中 是 否 包 含 元 素 member 
SINTER keyl key2 ... keyN 届 于 所 有 指定 集 的 元 素 
SINTERSTORE dstkey keyl key2 ... keyN 将 属于 所 有 指定 集 的 元 素 的 集 赋 值 给 dstkey 
SUNION keyl key2 ... keyN 届 于 任 一 指定 集 的 元 素 
SUNIONSTORE dstkey keyl key2 ... keyN 将 属于 任 一 指定 集 的 元 素 的 集 赋 值 给 dstkey 
SDIFF keyl key2 ... keyN key1 与 Key2 及 其 之 后 的 集 之 间 的 差异 元 素 
SDIFFSTORE dstkey keyl key2 ... keyN 将 keyl 与 Key2 及 其 之 后 的 集 之 间 的 差异 元 素 赋 值 给 dstkey 
SMEMBERS key 集中 所 有 的 元 素 
SRANDMEMBER key 随机 获取 集中 一 个 元 素 
适用 于 有 序 集 ( ZSET ) 的 命令 
ZADD key score member 添加 成 员 (已 经 存在 则 更 新 score ) 
ZREM key member 删除 member 
ZINCRBY key inc member 将 member 的 得 分 增加 inc 
ZRANK key member member 的 排 位 
ZREVRANK key member member 的 排 位 〈 倒序 ) 
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( 续 ) 


Hi 概 ”要 





ZRANGE key start end 





[ca 


取 范 围 内 的 元 素 





ZREVRANGE key start end 











取 范 围 内 的 元 素 ( 倒序 ) 





ZRANGEBYSCORE key min max 











取得 分 为 min 到 max 之 间 的 元 素 











ZCARD key 有 序 集 的 元 素数 
ZSCORE key member member 的 得 分 





ZREMRANGEBYRANK key min max 





获取 排 位 为 min 到 max 之 间 的 元 素 





ZREMRANGEBYSCORE key min max 





删除 得 分 为 min 到 max 之 间 的 元 素 





ZINTERSTORE dstkey N keyl … keyN 


将 指定 有 序 集 的 交集 赋值 给 dstkey 





ZUNIONSTORE dstkey N keyl … keyN 








将 指定 有 序 集 的 合集 赋值 给 dstkey 














































































































适用 于 散 列 表 的 命令 
HSET key field val 对 key 指 定 的 散 列 表 的 field 设置 val 
HGET key field 获取 key 指 定 的 散 列 表 的 field 
HMGET key fieldl ... fieldN 获取 多 个 field 对 应 的 值 
HMSET key fieldl valuel ... fieldN valueN 设置 多 个 field (原子 操作 ) 
HINCRBY key field int 将 field 的 值 增加 int 
HEXISTS key field 判断 散 列 表 中 是 否 包 含 field 
HDEL key field 删除 field 
HLEN key 散 列表 的 field 数 
HKEYS key 获取 散 列 表 的 所 有 field 
HVALS key 获取 散 列 表 的 所 有 value 
HGETALL key 获取 散 列 表 的 所 有 field 和 value 
排 序 
SORT key 对 列表 、 集 、 有 序 集 进行 排序 
事 务 
MULTI/EXEC/DISCARD/WATCH/UNWATCH Redis 的 原子 性 事务 











Publish/Subscribe 





SUBSCRIBE/UNSUBSCRIBE/PUBLISH 


Redis Publish/Subscribe 通 信 





















































持久 性 控制 命令 
SAVE 同步 保存 
BGSAVE 异步 保存 
LASTSAVE 最 后 保存 时 间 
SHUTDOWN 同步 保存 后 停止 服务 器 
BGREWRITEAOF 替换 日 志文 件 

远程 服务 器 控制 命令 

INFO 服务 器 信息 
MONITOR 请 求 转 储 ( 调试 用 ) 
SLAVEOF 复制 的 设置 
CONFIG Redis 设 置 (可 变更 ) 
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我 们 将 图 1 的 memcached 客户 端 改 造成 了 Redis 客户 端 (图 4)。Ruby 的 memcache 库 可 
以 将 对 象 自动 转换 成 字符 串 ， 不 过 Redis 库 却 不 会 进行 这 样 的 自动 转换 。 因 此 ， 我们 需要 用 
Marshal 显 式 地 转换 成 字符 串 。 除 了 这 一 点 和 memcached 客户 端 有 区 别 以 外 ， 其 他 方面 基本 上 
是 相同 的 。 在 这 里 我 们 只 使 用 了 字符 串 ,不 过 用 Redis 的 散 列 来 表达 userinfo 可 能 也 挺 有 意思 的 。 








require "redis' 


# 连接 Redis 
RD = Redis.new(:host => "localhost", :port => 6379) 


# 对 userinfo 进 行 带 缓存 查询 

def userinfo(userid) 
# 使 用 “user:《userid> ”为 键 来 访问 缓存 
result = RD.get("user:" + userid) 


# 如 果 不 存 在 于 缓存 中 则 返回 ni1 
unless result 
# 缓存 中 不 存在 ,直接 查询 数据 库 
result = DB.select("SELECT * FROM users WHERE userid = ?"，Userid) 
# 将 返回 结果 存放 在 缓存 中 ,以 便 下 次 从 缓存 中 查询 
RD.set("user:" + userid, Marshal.dump(result)) 
else 
# 将 缓存 还 原 成 对 象 
# Predis 库 不 会 进行 自动 字符 串 转换 
result = Marshal.load(result) 
end 
result 
end 


图 4 ”Ruby 编写 的 Redis 客户 端 

Redis 中 没有 像 memcached 的 prepend 这 样 的 命令 ， 要 进行 这 样 的 原子 性 操作 就 需要 用 到 事 
务 。memcached 和 Redis 在 事务 的 结构 方面 是 有 很 大 差异 的 。Redis 的 事务 是 由 包 庄 在 multi 命 
令 和 exec 命令 之 间 的 部 分 构成 的 。 当 遇 到 multi 









































命令 时 ， 其 后 面 的 所 有 命令 都 只 进行 参数 检查 ，。 def ne-prependtkey。val) 
然后 记录 到 日 志 中 ， 随后 当 遇 到 exeCc 命令 时 ， 再 RD.watch(key) 
一 次 性 (原子 性 ) 地 执行 所 有 的 记录 下 来 的 命令 et 
集 。 如 果 需 要 像 prepend 这 样 对 现 有 key 进行 变更 ， RD.set(key, v) 
则 需要 事先 用 watch 命令 指定 要 变更 的 key。 ee 
5 是 一 个 通过 Redis 的 事务 来 实现 prepend oo 
ET 








的 例子 。 不 过 ， 在 编写 这 个 程序 的 时 候 ，Redis 的 
事务 功能 还 处 于 开发 阶段 ， 因 此 无 法 使 用 WATCH 


命令 。 




















图 5 Redis 事务 示例 
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5.5 memcached 和 它 的 伙伴 们 








如 果 没 有 事务 功能 的 话 ， 可 能 很 多 人 会 感觉 非常 别扭 。 但 是 ， 在 采用 Redis 的 场景 中 ， 并 
不 一 定 需要 事务 功能 ， 因 此 我 觉得 开发 和 完善 这 个 功能 的 优先 级 并 不 高 。 大 家 可 以 回想 一 下 ， 
在 Web 应 用 程序 中 广泛 使 用 的 MySQL 数据 库 ， 也 是 在 曾经 很 长 一 段 时 间 内 都 不 支持 事务 的 。 








依 小 和 结 


memcached 以 及 对 其 “不 满 ”的 应 对 ， 似 乎 都 是 云 计算 网 络 环境 改变 了 对 软件 的 要 求 所 导 
致 的 结果 。 环 境 的 变化 ， 必 然 会 加 速 软 件 的 进化 。 
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“支撑 大 数据 的 数据 存储 技术 ”后 记 


历史 上 ， 对 于 数据 存储 的 重大 革新 ， 可 以 说 非 RDB (关系 型 数据 库 ) 莫 必 了。 具备 
关系 代数 理论 背景 的 RDB， 虽 然 在 1970 年 诞生 之 初 遭 到 了 无 数 批 评 ， 称 其 毫 无 用 武之 地 ， 
然而 现在 RDB 却 几乎 已 经 成 为 了 数据 库 的 代名词 。 


不 过 ， 在 进入 云 计算 时 代 之 后 ， 除 RDB 以 外 的 其 他 方案 开始 受到 越 来 越 多 的 关注 ， 
本 章 中 也 对 其 中 的 MongoDB、memcached 和 Redis 等 进行 了 介绍 。 由 于 这 些 数据 库 系统 并 
非 采用 SQL 的 RDB， 因 此 经 常 被 称 为 NoSQL。 它 们 之 所 以 备 受 关注 ， 应 该 说 是 因为 在 大 
量 节点 构成 的 云 计算 系统 中 ， 数 据 库 服务 器 逐渐 成 为 了 整个 系统 的 瓶颈 。 而 有 全， 大 多 以 通 
用 数据 库 服务 器 形式 提供 的 RDB， 出 于 各 种 各 样 的 原因 ， 很 难 解决 这 一 瓶颈 问题 。 


当然 ， 要 解决 这 一 问题 ， 也 可 以 采用 复制 (对 多 个 数据 库 进 行 同步 ， 并 将 请 求 分 配 到 
多 个 数据 库 服 务 器 上 )、 分 割 ( 按照 一 定 的 标准 将 数据 库 分 割 成 多 个 ， 例 如 将 编号 为 偶数 
和 奇数 的 会 员 分 别 保存 到 不 同 的 数据 库 中 ) 等 技术 ,但 这 些 技 术 都 需要 在 客户 端 一 侧 提 供 
一 定 的 支持 ， 而 从 结果 来 说 ， 有 很 多 场景 只 是 需要 通过 键 来 获取 值 这 样 简单 的 操作 ， 并 不 
一 定 要 动用 RDB。 

在 这 样 的 背景 下 ， 就 出 现 了 只 管理 键 值 对 并 将 数据 完全 保存 在 内 存 中 的 缓存 系统 


memcached。 同 时 ， 由 于 缓存 数据 丢失 后 还 是 需要 访问 数据 库 ， 与 其 产生 这 样 的 开销 还 不 
如 自己 来 管理 文件 写 入 操作 ， 于 是 就 诞生 了 ROMA、Flare 等 软件 。 





除 此 之 外 ， 随 着 对 系统 灵活 性 的 需求 不 断 提高 ， 固 定 的 数据 库 结 构 ( schema ) 已 经 无 
法 应 对 各 种 变化 ， 于 是 便 出 现 了 追求 数据 库 结构 灵活 性 的 MongoDB 和 Redis。 另 一 方面 ， 
RDB 也 认识 到 其 在 速度 和 灵活 性 方面 的 问题 ,同时 为 了 解决 这 些 问 题 而 进行 着 持续 的 进化 。 
本 章 中 介绍 的 VoltDB 正 是 其 中 的 一 种 尝试 。 


在 这 样 的 对 峙 中 ， 数 据 存 储 的 基础 ， 即 存储 架构 本 身 也 在 不 断 发 生变 化 。 速 度 缓慢 的 
硬盘 (HDD ) 正 在 被 淘汰 ,数据 存储 逐步 过 渡 到 采用 以 闪存 为 基础 的 固态 硬盘 ( SSD ), 同 时 ， 
MRAM、FeRAM 等 下 一 代 内 存 也 开始 薪 露 头角 ， 据 说 可 以 实现 和 现 有 DRAM 同等 的 速度 、 
能 够 与 闪存 相 媳 美的 容量 ,而 且 还 能 实现 永久 性 数据 存储 ( 断 电 后 数据 不 会 丢失 )。 这 样 
的 话 ， 数 据 库 这 一 概念 就 有 可 能 会 从 根本 上 被 颠覆 。 


在 下 一 代 内 存 得 到 广泛 运用 的 时 代 ， 曾 经 像 Smalltalk、Lisp 那样 将 内 存 空间 直接 保存 
下 来 的 模型 ， 说 不 定 会 东山 再 起 。 
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关于 摩尔 定律 ， 本 书 中 已 经 提 到 了 很 多 次 。 摩 尔 定律 是 由 美国 英特尔 公司 的 戈 登 . 摩尔 
(Gordon Moore ) 提出 的 ， 指 的 是 “集成 电路 中 的 晶体 管 数量 大 约 每 两 年 翻 一 倍 "。 下 面 我 们 就 
摩尔 定律 进行 一 些 更 深入 的 思考 。 











实际 上 ， 在 1965 年 的 原始 论文 中 写 的 是 “每 年 翻 一 倍 ”"， 在 10 年 后 的 1975 年 发 表 的 论文 
中 又 改 成 了 “每 两 年 翻 一 倍 ”。 在 过 去 的 40 年 中 ，CPU 的 性 能 大 约 是 每 一 年 半 翻 一 倍 ， 因 此 有 
很 多 人 以 为 摩尔 定律 的 内 容 本 来 是 “每 18 个 月 翻 一 倍 ”。 














其 实 ， 在 几 年 前 对 此 进行 考证 之 前 ， 我 也 是 这 么 以 为 的 。 然 而 ， 似 乎 没有 证 据 表 明 戈 登 . 
摩尔 提出 过 “18 个 月 ”这 个 说 法 。 但 英特尔 公司 的 David House 曾经 在 发 言 中 提 到 过 “LSI (大 
规模 集成 电路 ) 的 性 能 每 18 个 月 翻 一 倍 ”"， 因 此 18 个 月 一 说 应 该 是 起 源 于 他 。 





虽然 摩尔 定律 也 叫 定律 ， 但 它 并 非 像 物 理 定律 那样 严格 ， 而 只 是 一 种 经 验 法 则 、 技 术 趋 势 
或 者 说 是 目标 。 然 而 ,， 令 人 惊讶 的 是 ， 从 1965 年 起 至 今 ， 这 一 定律 一 直 成 立 ， 并 对 社会 产生 了 
巨大 的 影响 。 














信 呈 几何 级 数 增长 








“两 年 变 为 原来 的 两 倍 "， 就 是 说 4 年 4 倍 、6 年 8 倍 、27 年 2 的 n 次 方 倍 这 样 的 增长 速度 。 
像 这 样 “n 年 变 为 K 的 m 次 方 倍 ” 的 增长 称 为 几何 级 数 增长 。 





对 于 我 们 来 说 ， 摩 尔 定律 的 结果 已 经 司空 见 惯 了 ， 也 许 一 下 子 很 难 体 会 到 其 惊人 的 程度 。 
下 面 我 们 通过 一 个 故事 ,来 看 一 看 这 种 增长 的 速度 是 何等 令 人 震 慰 。 


























很 久 很 久 以 前 ， 在 某 个 地 方 有 一 位 围棋 大 师 ， 他 的 围棋 水 平 天 下 无 双 ， 于 是 领主 说 :“ 你 想 
要 什么 我 就 可 以 党 给 你 什么 。” 大 师 说 :“ 我 的 愿望 很 简单 ， 只 要 按照 棋盘 的 格子 数 ， 每 天 给 我 
一 定数 量 的 米 就 可 以 了 。 第 一 天 一 粒 米 ， 第 二 天 两 粒 米 ， 每 天 都 比 前 一 天 的 粒 数 翻 倍 。 























“什么 嘛 ， 从 一 粒 米 开始 吗 ?”” 领 主 笑 道 ,“ 你 可 真是 无 欲 无 求 啊 。 好 ， 明 天 就 开始 吧 。” 围 
棋 的 棋盘 有 19 x 19 个 格子 , 也 就 是 说 领主 要 在 361 天 中 每 天 赏 给 大 师 相 应 的 米 。 第 一 天 给 1 粒 ， 
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第 O 齐 多 核 时 代 的 编程 











第 二 天 是 两 粒 ， 然 后 是 4 粒 、8 粒 、16 粒 、32 粒 。 Rd 觉得 :“ 也 就 这 么 点 米 嘛 。” 但 
过 了 几 天 之 后 情况 就 发 生 了 变化 。 两 周 还 没 到 ， 赏 赐 的 米粒 一 碗 已 经 装 不 下 了 ， 要 用 更 大 的 盆 
子 才能 装 下 ， 这 时 ， 有 一 位 家 臣 发 现 情况 不 妙 。 











主公 ， 大 事 不 好 ! ”“ 怎 么 了 ? ”“ 就 是 赏 给 大 师 的 那些 米 ， 我 算 了 一 下 ， 这 个 米 的 数量 可 
不 得 了 ， 最 后 一 天 ， 也 就 是 第 361 天 ， 要 赏 给 他 的 米 居 然 有 2348542582773833227889480596789 
337027375682548908319870707290971532209025114608443463698998384768703031934976 粒 。 
这 么 多 米 ， 别 说 我 们 这 座 城 ， 就 是 全 世界 的 米 都 加 起 来 也 不 够 啊 ! ""”“ 天 呐 ! ”无 奈 ， 领 主 只 
能 把 大 师 叫 来 ， 请 他 换 一 个 愿望 。 











看 了 上 面 这 个 故事 ,我 想 大 家 应 该 明白 几何 级 数 增长 会 达到 一 个 多 么 惊人 的 数字 了 。 而 在 
半导体 业界 , 这 样 的 增长 已 经 持续 了 40 多 年 。 大 量 技术 人 员 不 懈 努 力 才 将 这 样 的 奇迹 变 成 现实 ， 
这 是 一 项 多 么 了 不 起 的 成 就 啊 。 








匀 摩 尔 定律 的 内 洒 
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半导体 的 制造 使 用 的 是 一 种 类 似 印 刷 的 技术 。 简 单 来 说 ， 是 在 被 称 为 “ 唱 圆 ”( wafer ) 的 
圆 形 单 晶 硅 薄 片上 涂 一 层 感 光 树 脂 〈 光 刻 胶 )， 然 后 将 电路 的 影像 照射 到 晶 圆 上 。 其 中 被 光照 射 
到 并 感光 的 部 分 树脂 会 保留 下 来 ， 甚 余 的 部 分 会 露出 硅 层 ”。 接 下 来 ， 对 露出 的 硅 的 部 分 进行 加 
工 ， 就 可 以 制作 成 晶体 管 等 元 件 。 摩 尔 定 律 的 本 质 ， 即 如 何 才能 在 唱 圆 上 蚀刻 出 更 细微 的 电路 ， 
是 对 技术 人 员 的 一 项 巨大 的 挑战 。 

















技术 人 员 可 不 是 为 了 自我 满足 才 不 断 开发 这 种 细微 加 工 工艺 的 。 电 路 的 制程 缩小 一 半 ， 就 
意味 着 同样 的 电路 在 硅 晶 圆 上 所 占用 的 面积 可 以 缩小 到 原来 的 14。 也 就 是 说 ， 在 电路 设计 不 变 
的 情况 下 ， 用 相同 面积 的 硅 晶 圆 就 可 以 制造 出 4 倍数 量 的 集成 电路 ， 材 料 成 本 也 可 以 缩减 到 原 
来 的 1/4。 











缩减 制程 的 好 处 还 不 仅 如 此 。 构 成 CPU 的 MOS (Metal-Oxide Semiconductor， 金属 氧 化 物 
半导体 ) 晶体 管 ， 当 制程 缩减 到 原来 的 /2 时 ， 就 可 以 实现 2 倍 的 开关 速度 和 1/4 的 耗 电 量 。 这 
一 性 质 是 由 IBM 的 Robert Dennards 发现 的 ， 因 此 被 命名 为 Dennard Scaling。 

















Q@ 实际 上 这 个 数字 已 经 超过 了 宇宙 中 存在 的 所 有 粒子 的 数量 。( 原 书 注 ) 

@ 光 刻 胶 有 两 种 : 一 种 在 感光 之 后 可 以 被 显影 剂 溶解 ， 即 正光 刻 胶 ; 另 一 种 在 感光 之 后 不 会 被 显影 剂 溶解 ， 即 负 
光 刻 腕 。 这 里 提 到 的 是 负 光 刻 胶 。 

@) Robert Dennard ( 1932 ) 是 美国 电子 工程 师 ， 发 明 家 ， 他 于 1968 年 发 明了 目前 广 为 使 用 的 DRAM 内 存 。 
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6.1 摩尔 定律 


综 上 所 述 ， 如 果 制 程 缩 减 一 半 ， 就 意味 着 可 以 用 同样 的 材料 ， 制 造 出 4 倍数 量 、2 倍速 度 
1/4 耗 电 量 的 集成 电路 ,这 些 好 处 相当 诱 人 ,40 多 年 来 摩尔 定律 能 够 一 直 成 立 ,其 理由 也 正在 于 此 。 
缩减 制程 所 带 来 的 好 处 如 此 之 大 ， 足 以 吸引 企业 投入 巨额 的 研发 经 费 ， 甚 至 出 资 建设 新 的 半 导 
体制 造 工 厂 也 在 所 不 惜 。 



































尺 摩尔 定律 的 结果 
可 以 说 ,最 近 的 计算 机 进化 和 普及 ， 基 本 上 都 是 托 了 摩尔 定律 的 福 。 半 导体 技术 的 发 展 将 
摩尔 定律 变 为 可 能 ， 也 推动 了 计算 机 性 能 的 提高 、 存 储 媒体 等 容量 的 增加 ， 以 及 价格 难以 置信 
般 的 下 降 。 














1 如， 现在 一 般 的 个 人 电脑 价格 都 不 超过 10 万 日 元 ( 约 合 人 民 币 8000 元 ), 但 其 处 理性 能 
已 经 超过 了 30 年 前 的 超级 计算 机 。 而 且 ， 当 时 的 超级 计算 机 光 租 金 就 要 超过 每 月 1 亿 日 元 ( 约 
合 人 民 币 800 万 元 )， 从 这 一 点 上 来 说 ， 变 化 可 谓 是 天 翻 地 履 的 。 


之 














30 年 前 ( 1980 年 左右 ) 的 个 人 电脑 ， 我 能 想到 的 就 是 NEC ( 日 本 电气 ) 的 PC-8001 (1979 
年 发 售 )， 和 现在 的 电脑 对 比 一 下 ， 我 们 可 以 看 到 一 些 非常 有 趣 的 变化 ( 表 1 )。 





即使 不 考虑 这 30 年 间 物 价 水 平 的 变化 ， 这 一 差距 也 可 谓 是 压倒 性 的 。 而 且 ， 现 在 的 笔记 本 
电脑 还 配备 了 液晶 显示 屏 、 大 容量 硬盘 和 网 络 接口 等 设备 ， 而 30 年 前 最 低 配 置 的 PC-8001 除了 
主机 之 外 ， 甚 至 都 没有 配备 显示 屏 和 软驱 ， 这 一 点 也 很 值得 关注 。 


表 1 30 年 间 个 人 计算 机 的 变化 
































PC-8001 ( NEC ) ThinkPad X201 ( Lenovo ) 比 值 

价格 16 万 8000 日 元 ( 约 合 人 民 币 13 万 4820 日 元 ( 约 合 人 民 币 0.8 倍 
1 万 3000 元 ) 1 万 元 ) 

CPU Z80 兼 容 4MHz Intel Core i5 2.66GHz 655 倍 ” 
存储 容量 
RAM 32KB 4GB 125 万 倍 
ROM 24KB es ee 
外 部 存储 器 软盘 320KB 硬盘 500GB 156 万 倍 





















































Q@ PC-8001 由 于 中 断 等 待 的 原因 ,其 有 效 时 钟 频 率 只 有 2.3MHz 左右 。 而 X201 的 Core is 由 于 具备 窒 频 加 速 ( Turbo 
Boost ) 功能 ， 最 高 时 钟 频 率 可 达到 3.2GHz。 因 此 两 者 性 能 比值 最 高 为 1391 倍 。( 原 书 注 
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不 过 ， 摩 尔 定律 所 指 的 只 是 集成 电路 中 晶体 管 数 量 呈 几何 级 数 增长 这 一 趋势 ， 而 计算 机 性 
能 的 提高 、 价 格 的 下 降 ， 以 及 其 他 各 种 变化 ， 都 是 晶体 管 数量 增长 所 带 来 的 结果 。 

















让 我 们 来 思考 一 下 ， 通 过 工艺 的 精细 化 而 不 断 增 加 的 晶体 管 ， 是 如 何 实现 上 述 这 些 结果 的 
呢 ? 最 容易 理解 的 应 该 就 是 价格 了 。 单 位 面积 中 晶体 管 数量 的 增加 ， 同 时 也 就 意味 着 晶体 管 的 
单价 呈 儿 何 级 数 下 降 。 当 然 ， 工艺 的 精细 化 必然 需要 技术 革新 的 成 本 ,但 这 种 成 本 完全 可 以 被 
量 产 效 应 所 抵消 。 


工艺 的 精细 化 ， 意 味 着 制造 相同 设计 的 集成 电路 所 需 的 成 本 越 来 越 低 。 即 便 算 上 后 面 所 提 
到 的 为 提升 性 能 而 消费 的 晶体 管 ， 其 数量 的 增长 也 是 绰绰有余 的 。 也 就 是 说 ， 只 要 工艺 的 精细 
化 能 够 得 以 不 断 地 推进 ， 成 本 方面 就 不 会 存在 什么 问题 。 不 仅 是 CPU， 电 脑 本 身 就 是 电子 元 件 
的 集合 。 像 这 样 由 工艺 改善 带 来 的 成 本 下 降 ， 就 是 上 面 所 提 到 的 30 年 来 个 人 电脑 在 价格 方面 进 
化 的 原动力 。 






































精细 化 所 带 来 的 好 处 并 不 仅仅 是 降低 成 本 。 由 于 前 面 提 到 的 Dennard Scaling 效应 ， 唱 体 管 
的 开关 速度 也 得 以 实现 飞跃 性 的 提升 。 相 应 地 ，CPU 的 工作 时 钟 频 率 也 不 断 提 高 。30 年 前 CPU 
的 工作 时 钟 频 率 还 只 有 几 Mhz， 而 现在 却 已 经 有 几 GHz 了， 实际 提高 了 差不多 1000 倍 。 





由 于 构成 CPU 的 晶体 管 数量 大 幅 增加 ， 通 过 充分 利用 这 些 晶体 管 来 提高 性 能 ， 也 为 CPU 

的 高 速 化 做 出 了 贡献 。 现 代 的 CPU 中 搭载 了 很 多 高 速 化 方面 的 技术 ， 例 如 将 命令 处 理 分 割 成 多 

段 并 行 执行 的 流水 线 处 理 ( pipeline ); 不 直接 执行 机 需 语 言 ， 而 是 先 转换 为 更 加 细 化 的 内 部 指 

令 的 微 指令 编码 (micro-operation decoding ); 先 判 断 指令 之 间 的 依赖 关系 ， 对 没有 依赖 关系 的 

间 令 改变 执行 顺序 进行 乱 序 执行 (outrof-order execution ); 条 件 分 支 时 不 等 竺 条件 判断 结果 ， 而 
是 先 继续 尝试 执行 投机 执行 ( speculative execution ) 等 。 














在 现代 CPU 的 内 部 ， 都 配备 了 专用 的 高 速 缓存 ， 通 过 高 速 缓存 可 以 在 访问 内 存 时 缩短 等 待 
时 间 。 从 CPU 的 运行 速度 来 看 ， 通 过 外 部 总 线 连接 的 主 内 存 访 问 起 来 非常 缓慢 。 仅 仅 是 等 待 数 
据 从 内 存 传输 过 来 的 这 段 时 间 ，CPU 就 可 以 执行 数 百 条 指令 。 





























还 好 ， 对 内 存 的 访问 存在 局 部 性 特点 ， 也 就 是 相同 的 数据 具有 被 反复 访问 的 倾向 ， 因 此 只 
要 将 读 取 过 的 数据 存放 在 位 于 CPU 内 部 的 快速 存储 器 中 ， 就 可 以 避免 反复 访问 内 存 所 带 来 的 巨 
大 开销 。 这 种 方法 就 是 高 速 缓存 。 缓 存 英 文 写作 cache， 原 本 是 法 语 “隐藏 ”的 意思 ,大概 指 的 
是 将 内 存 中 的 数据 贮藏 起 来 的 意思 吧 。 


不 过 ，CPU 内 部 配备 的 高 速 缓存 容量 是 有 限 的 ， 因 此 也 有 不 少 CPU 配备 了 作为 第 二 梯队 的 
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二 级 缓存 。 相 比 能 够 从 CPU 直接 访问 的 高 速 、 高 价 、 低 容量 的 一 级 缓存 来 说 ， 二 级 缓存 虽然 速 
度 较 慢 〈 但 仍然 比 内 存 的 访问 速度 高 很 多 )， 但 容量 很 大 。 还 有 一 些 CPU 甚至 配备 了 作为 第 三 
梯队 的 三 级 缓存 。 如 果 没 有 高 速 缓 存 的 话 ， 每 次 访问 内 存 的 时 候 ，CPU 都 必须 等 待 能 够 执行 数 


百 条 指令 的 漫长 时 间 。 




















最 近 的 电脑 中 已 经 逐渐 普及 的 多 核 和 超 线程 (Hyper Threading ) 等 技术 ， 都 是 利用 品 体 管 





数量 来 提高 运算 性 能 的 尝试 。 


信 为 了 提高 性 能 





接 下 来 , 我 们 就 来 具体 看 一 看 ， 
那些 增加 的 晶体 管 到 底 是 如 何 被 用 
来 提高 CPU 性 能 的 。 


CPU 在 运行 软件 的 时 候 ， 看 起 
来 似乎 是 逐一 执行 指令 的 ， 但 其 实 
构成 CPU 的 硬件 (电路) 是 能 够 
同时 执行 多 个 操作 的 。 将 指令 执行 
的 操作 进行 分 制 ， 通 过 流水 作业 的 
方式 缩短 每 一 个 单独 步 又 的 处 理 时 

















图 无 流水 线 , 执 行 3 个 指令 需要 15 格 
人 


[FIDETDFTEXIWB) 
图 有 流水 线 ,执行 3 个 指令 需要 7 格 
202 IF : 取出 指令 
[FIDETDFIEXTWB) 四 全 
ae 
FTOETDFTEXTWB) WB 血 写 





图 1 CPU 的 流水 线 处 理 

















间 ， 从 而 提升 指令 整体 的 执行 速度 ， 这 种 流水 线 处 理 就 是 一 种 提高 性 能 的 基本 技术 ( 图 1 )。 


典型 的 处 理 步 又 包括 : 中 取出 指令 ( fetch ); @ 指 令 解 码 ( decode ); @ 取 出 运算 数据 ( data 
fetch ); 运算 ; @ 输 出 运算 结果 ( write-back ) 等 。 


我 们 可 以 看 出 ， 将 操作 划分 得 越 细 ， 每 一 级 的 处 理 时 间 也 会 相应 缩短 ， 从 而 提升 指令 执行 
的 吞吐 量 。 出 于 这 样 的 考虑 ， 现 代 的 CPU 中 流水 线 都 被 进一步 细 分 ， 例 如 在 Pentium4 中 被 细 
分 为 31 级 (英特尔 最 新 的 Core 架构 是 采用 14 级 的 设计 )。 








不 过 ， 流水线 处 理 也 并 非 十 全 十 美 。 当 流水 作业 顺利 执行 的 时 候 是 没什么 问题 的 ， 一旦 流 





水 线 上 发 生 一 个 问题 ， 就 会 接连 引发 一 连 串 的 问题 。 要 想 让 流水 线 处 理 顺利 进行 ,需要 让 各 步 
又 都 以 相同 的 步伐 并 肩 前 进 ， 而 这 一 条 件 并 非 总 能 得 到 满足 。 





我 们 来 看 一 个 CPU 加 法 指令 的 例子 。x86 的 加 法 指令 是 : 


ADD a b 
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这 条 指令 的 意思 是 将 a 和 b 相 加 ， 并 将 结果 保存 在 a 中 。a 和 b 可 以 是 寄存 器 ， 也 可 以 是 内 存 地 
址 ， 但 对 于 CPU 来 说 ， 访 问 寄存 器 和 访问 内 存 所 需要 的 时 间 是 天 壤 之 别 的 。 如 果 需 要 对 内 存 进 
行 访问 ， 则 在 执行 取出 数据 这 一 步 的 时 间 内 ， 整 个 流水 线 就 需要 等 待 几 百 个 时 钟 周期 ， 这 样 一 
来 流水 线 化 对 指令 执行 速度 带 来 的 那 一 点 提升 也 就 被 抵消 了 。 











像 这 样 流水 线 发 生 停顿 的 问题 被 称 为 气泡 (bubble / pipeline stall )。 产 生气 泡 的 原因 有 很 多 
种 ， 需 要 针对 不 同 的 原因 采取 不 同 的 对 策 。 





上 述 这 样 由 于 内 存 访问 速度 缓慢 导致 的 流水 线 停顿 问题 ， 被 称 为 “数据 冒险 ”( data 
hazard )， 针 对 这 种 问题 的 对 策 ， 就 是 我 们 刚刚 提 到 过 的 “高 速 缓存 "。 高 速 缓存 ， 实 际 上 是 消耗 
一 定数 量 的 晶体 管用 作 CPU 内 部 高 速 存储 空间 ， 从 而 提升 速度 的 一 种 技术 。 








然而 ， 高 速 缓存 也 不 是 万 能 的 。 即 使 晶体 管 数 量 大 幅 增 长 ， 其 数量 也 不 是 无 限 的 ， 因 此 高 
速 缓存 在 容量 上 是 有 限制 的 。 而 且 ， 组 存 的 基本 工作 方式 是 “将 读 取 过 一 次 的 数据 保存 下 来 ， 
使 下 次 无 需 重 新 读 取 ”， 因 此 对 于 从 未 读 取 过 的 数据 ， 依 然 还 是 要 花费 几 百 个 时 钟 周期 去 访问 位 
于 CPU 外 部 的 内 存 才 行 。 

还 有 其 他 一 些 原因 会 产生 气泡 ， 例 如 由 于 CPU 内 部 电路 等 不 足 导 致 的 资源 冒险 (resource 


hazard ); 由 于 条 件 分 支 导致 的 分 支 冒 险 (branch hazard ) 等 。 资 源 冒 险 可 以 通过 增设 内 部 电路 
来 进行 一 定 程 度 的 缓解 。 





























这 里 需要 讲解 一 下 分 文 胃 险 。 在 
CPU 内 部 遇 到 条 件 分 支 指令 时 ， 需 要 国 根 据 第 1 条 指令 的 执行 结果 ,由 第 2 条 指令 产生 分 支 





根据 之 前 命令 的 执行 结果 ， 来 判断 接 6 7 8 9 10 711712 
入 。 [FTOETOFTEXTWB) 

下 来 要 执行 的 指令 的 位 置 。 不 过 ， 指 TFTDeTbp < TEXTwWB) 

令 的 执行 结果 要 等 到 该 命令 的 WB( 回 (IF|DE|DF |Ex|wB) 











写 ) 步骤 完成 之 后 才能 知晓 ， 因 此 流 图 2 分 支 冒 险 
水 线 的 流向 就 会 变 得 不 明确 ( 图 2 )。 


























在 图 2 中 ,首先 执行 第 1 条 指令 ,与 之 并 行 执 行 第 2 条 指令 的 取出 操作 ( 到 第 4 个 周期 ), 然而 ， 
第 1 条 指令 执行 完毕 之 前 , 无 法 执行 第 2 条 指令 的 分 文 (第 5 个 周期 ), 这 算是 一 种 资源 冒险 吧 。 
第 1 条 指令 的 执行 完全 结束 之 后 ， 才 可 以 轮 到 第 2 条 指令 ， 而 第 2 条 指令 的 回 写 操作 完成 之 后 ， 
才能 够 确定 第 3 条 指令 位 于 哪个 位 置 ， 也 就 是 说 ， 这 时 能 够 执行 第 3 条 指令 的 取出 操作 。 

















分 文 置 险 可 没 那么 容易 解决 。 分 支 预 测 是 其 中 的 一 种 方案 。 分 支 预测 是 利用 分 支 指令 跳 转 
目标 上 的 全 向 性 ， 事 先 对 跳 转 的 目标 进行 猜测 ， 并 执行 相应 的 取出 指令 操作 。 
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图 3 是 分 支 预 测 的 执行 示意 图 。 到 第 2 个 指令 为 止 的 部 分 ， 和 图 2 是 相同 的 ， 但 为 了 避免 
产生 气泡 ， 这 里 对 分 支 后 的 指令 进行 预测 并 开始 取出 指令 的 操作 。 当 预测 正确 时 ， 整 个 执行 过 
程 需要 9 个 周期 ， 和 无 分 支 的 情况 相 比 只 增加 了 2 个。 当 预 测 错误 时 ， 流 水 线 会 被 清空 并 从 头 
开始 。 只 要 猜 中 就 赚 到 了 ， 没 猜 中 也 只 是 和 不 进行 预测 的 结果 一 样 而 已 ， 因 此 整体 的 平均 执行 
速度 便 得 到 了 提升 。 


最 近 的 CPU 已 经 超越 了 分 文 预测 ， 发 展 出 更 进一步 的 投机 执行 技术 。 所 谓 投机 执行 ， 就 是 
对 条 件 分 支 后 的 跳 转 目标 进行 预测 后 ， 不 仅仅 是 执行 取出 命令 的 操作 ,还 会 进一步 执行 实际 的 
运算 操作 。 当 然 ， 当 条 件 分 支 的 预测 错误 时 ， 需 要 取消 刚才 的 执行 ,但 当 预 测 正确 时 ， 对 性 能 
的 提升 就 可 以 比 仅 进 行 分 支 预 测 来 得 更 加 高 效 。 





















































流水 线 是 一 种 在 垂直 方向 上 对 指令 处 理 进 行 重 炙 来 提升 性 能 的 技术 ， 相 对 地 ， 在 水 平方 向 
上 将 指令 进行 重 琶 的 技术 称 为 超标 量 ( superscalar )。 也 就 是 说 ， 在 没有 相互 依赖 关系 的 前 提 下 ， 
多 条 指令 可 以 同时 执行 。 

例如 ， 同 时 执行 两 条 指令 的 超标 量 执行 情况 如 图 4 所 示 。 从 理论 上 说 ， 最 好 的 情况 下 ， 执 
行 6 条 指令 只 需要 7 个 周期 ,这 真 的 是 了 不 起 的 加 速效 果 。 在 图 3 的 例子 中 是 同时 执行 两 条 指令 ， 
但 只 要 增加 执行 单元 ， 就 可 以 将 理论 极限 提高 到 3 倍 甚至 4 倍 。 实 际 上 ， 在 最 新 的 CPU 中， 可 
同时 执行 的 指令 数量 大 约 为 5 条 左右 。 



































1 2 7 








可 (IF [DE [DFTEXIWB) 
尔 拒 公 的 抽 行 疆 后 人 
ee ee 
(IF|DE|DFJEXIWB) 
(A) 预测 正确 的 情况 
CT xx y es 
(B) 预测 错误 的 情况 
(IFTDE[DFT x Tx [EXIWB) vy a a a a 
[IF |DE |DF|EXTWB) 
图 3 分支 预测 图 4 超标 量 执行 























不 过 ,事情 总 是 没有 这 么 简单 。 采 用 超标 量 架构 的 CPU， 实 际 能 够 同时 执行 的 指令 数量 要 
远 远 低 于 理想 的 值 ， 这 是 因为 数据 间 的 依赖 关系 妨碍 了 指令 的 同时 执行 。 例 如 : 








a = be 
Geterh 
ES 


像 上 述 这 样 的 运算 ， 各 行 运算 之 间 没 有 相互 依赖 关系 ， 最 极端 的 情况 下 ， 即 便 打 乱 这 些 运 算 的 
顺序 ， 结 果 也 不 会 发 生 任何 变化 。 像 这 样 的 情况 ， 就 能 够 发 挥 出 超标 量 的 最 大 性 能 。 然 而 ， 如 
果 是 下 面 这 样 的 话 : 
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行 的 运算 依赖 第 1 行 的 结果 ， 第 3 行 的 运算 依赖 第 2 行 的 结果 。 这 就 意味 着 第 1 行 的 运算 
结果 之 前 , 无 法 执行 第 2 行 的 运算 ; 第 2 行 的 运算 得 出 结果 之 前 , 也 无 法 执行 第 3 行 的 运算 ， 
就 是 说 ， 无 法 实现 同时 执行 。 


要 
2 

本 

中 











于 是 ， 为 了 增加 能 够 同时 执行 的 指令 数量 ， 可 以 使 用 “ 乱 序 执行 ”技术 。 这 个 问题 的 本 质 
在 于 ,一 个 指令 和 用 于 计算 它 所 依赖 的 结果 的 指令 距离 太 近 。 正 是 由 于 相互 依赖 的 指令 距离 太 近 ， 
才 导 致 CPU 没有 时 间 完 成 相应 的 准备 工作 








意 

















那么 ,我们 可 以 在 不 改变 计算 结果 的 范围 内 ， 改 变 指 令 的 执行 顺序 ， 这 就 是 乱 序 执行 。 乱 
序 执行 的 英文 out of order 原本 多 指 “ 故 障 ”的 意思 ， 但 这 里 “order” 指 的 是 顺序 ， 也 就 是 命令 
执行 顺序 与 排列 顺序 不 同 的 意思 。 














例如 : 
a=b+c 
d= a + e (依赖 第 1 行 ) 
g= d+ h (依赖 第 2 行 ) 
00= kr 
mn 
这 样 的 运算 ， 如 果 将 顺序 改 为 : 
a=b+c 
J kr 
d= a + e (依赖 第 1 行 ) 
me no 
g= d+ h (依赖 第 3 行 ) 





就 可 以 十 满 空闲 的 执行 单元 ， 顺 利 的 话 ， 就 能 够 稀释 指令 之 间 的 相互 依赖 关系 ， 从 而 提高 执行 
效率 。 








为 了 充分 利用 流水 线 带 来 的 好 处 ， 出 现 了 一 种 叫做 RISC 的 CPU 架构 。RISC 是 Reduced 
Instruction Set Computer ( 精简 指令 集 ) 的 缩写 ， 它 具备 以 下 特征 : 








口 精简 且 高 度 对 称 的 指令 集 。 
口 指令 长 度 完全 相同 ( 也 有 例外 )。 

口 和 传统 CPU 相 比 寄存 器 数量 更 多 。 

口 运算 的 操作 数 只 能 为 寄存 器 ， 内 存 中 的 数据 需要 显 式 地 加 载 到 寄存 器 中 。 





这 样 的 特征 所 要 达到 的 目的 如 下 : 
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口 通过 减少 指令 种 类 使 电路 设计 简单 化 〈 高速 化 )。 
口 通过 统一 指令 的 粒度 使 流水 线 更 加 容易 维持 。 
口 根据 依赖 关系 对 指令 的 重新 排序 可 通过 编译 器 的 优化 来 实现 。 






































大 约 20 年 之 前 ，RISC 架构 是 非常 流行 的 ， 其 中 比较 有 名 的 有 MIPS 和 SPARC 等 。 现 在 ， 
RISC 虽然 没有 被 非常 广泛 的 应 用 , 但 像 智 能 手机 中 使 用 的 ARM 处 理 器 就 属于 RISC 架构 , 此外， 
PlayStation 3 等 设备 中 采用 的 CELL 芯片 也 是 RISC 架构 的 。 





不 过 ，RISC 的 指令 集 与 传统 CPU (与 RISC 相对 的 叫做 CISC: Complex Instruction Set 
Computer， 复 杂 指 令 集 ) 的 指令 集 是 完全 不 同 的 ， 它 们 之 间 完 全 不 具备 兼容 性 ， 这 也 成 为 了 一 
个 问题 。 过 去 的 软件 资产 都 无 法 充分 利用 ， 这 不 得 不 说 是 一 个 很 大 的 障碍 。 











于 是 ， 最 近 的 x86 系 CPU 中 ,使 用 微 指令 转换 技术 ， 在 保持 传统 CISC 指令 的 同时 ， 试 图 
获得 一 些 RISC 的 优势 。 这 种 技术 就 是 在 外 部 依然 使 用 传统 x86 指令 集 的 同时 ， 在 内 部 将 x86 指 
令 转 换 为 粒度 更 小 的 RISC 型 指令 集 来 执行 。 一 条 x86 指令 会 被 转换 成 多 条 微 指令 。 通 过 这 种 
方式 ， 在 保持 兼容 x86 指令 集 的 同时 ， 根 据 软件 的 实际 情况 ， 可 以 获得 除 依赖 关系 控制 之 外 的 
RISC 优势 。 但 即便 如 此 ， 要 填充 所 有 超标 量 的 执行 单元 ， 还 是 十 分 困难 的 。 


























那么 ,为 什么 执行 单元 无 法 被 有 效 填充 呢 ? 原因 在 于 数据 之 间 存 在 相互 依赖 关系 。 既 然 如 此 ， 
那 可 以 将 没有 依赖 关系 的 多 个 执行 同时 进行 吧 ? 这 也 就 是 所 谓 的 超 线 程 ( Hyper Threading ) 技 术 。 
超 线 程 是 英特尔 公司 的 一 个 专 有 名 词 ， 这 一 技术 的 一 般 名 称 应 该 叫做 SMT (Simultaneous Multi- 
Threading， 同 时 多 线程 )， 不 过 为 了 简便 起 见 ， 这 里 统一 使 用 超 线 程 一 词 。 








所 谓 超 线程 ， 就 是 通过 同时 人 处理 多 个 取出 并 执行 指令 的 控制 流程 ， 从 而 将 没有 相互 依赖 关 
系 的 运算 同时 送 入 运算 右 中 ， 通 过 这 一 手段 ， 可 以 提高 超标 量 的 利用 效率 。 实 际 上 ， 为 了 同时 
处 理 多 个 控制 流程 (线程 )， 还 需要 增加 相应 的 寄存 器 等 资源 。 



































Ps 





超 线程 是 对 空闲 运算 器 的 一 种 有 效 利用 ， 但 并 不 是 说 可 以 按 线程 数量 成 比例 地 提高 性 能 。 
根据 英特尔 公司 发 布 的 数据 ， 超 线程 最 多 可 提升 30% 左右 的 性 能 。 不 过 ， 为 了 实现 这 30% 的 性 
能 提升 ， 晶 体 管 数量 仅仅 增加 了 5%。 用 5% 的 晶体 管 增加 换取 30% 的 性 能 提升 ， 应 该 说 是 一 
笔划 算 的 交易 。 














除了 上 述 这 些 以 外 ， 还 有 其 他 一 些 提 高 性 能 的 方法 。 例 如 在 一 块 芯片 中 封装 多 个 核心 的 多 
核 (mnulti-core ) 技术 。 最 近 的 操作 系统 中 ， 多 进程 早已 司空 见 惯 ， 对 多 核 的 运用 空间 也 愈 发 
广阔 。 多 核 分 为 两 种 形式 ， 即 包含 多 个 相同 种 类 核心 的 同 构 多 核 (homogeneous multi-core )， 以 
及 包含 多 个 不 同 种 类 核心 的 异 构 多 核 (heterogeneous multi-core )。 在 异 构 多 核 中 ， 除 了 通常 的 
CPU 以 外 ， 还 可 以 包含 GPU (Graphic Processing Unit， 图 像 处 理 单元 ) 和 视频 编码 核心 等 。 此 
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名 O 多 该 时 人 的 编程 


外 ， 包 含 数 十 个 其 至 数 百 个 核心 的 芯片 也 正在 研究 ， 这 被 称 为 超 多 核 《many-core )。 


匀 摩尔 定律 的 极限 
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在 过 去 40 年 里 一 直 不 断 改变 世界 的 摩尔 定律 ， 在 今后 是 否 能 够 继续 有 效 下 去 ， 从 目前 的 形 
势 上 看 并 不 乐观 。 出 于 几 个 理由 ， 芯 片 集成 度 的 提高 似乎 已 经 接近 了 极限 。 




















第 一 个 极限 就 是 导线 宽度 。 随 着 半导体 制造 技术 的 进步 ， 到 2010 年 时 ， 最 小 的 制程 已 经 
达到 32nm ( 纳米 ，1 纳米 为 1 米 的 10 亿 分 之 一 ) 刚才 已 经 讲 过 ， 集 成 电路 是 采用 一 种 类 似 印 
刷 的 技术 来 制造 的 ， 即 用 光照 射 模板 ， 按 照 模 板 上 的 图 案 感光 并 在 半导体 上 形成 电路 。 问 题 是 ， 
电路 已 经 变 得 过 于 精密 ， 甚 至 比 感 光 光 源 的 波长 还 要 小 。 目 前 采用 的 感光 光源 是 紫外 激光 ， 而 
紫外 激光 的 波长 为 96.5nm。 









































在 森林 里 ， 阳 光 透 过 友 密 的 树叶 在 地 面 上 投下 的 影子 会 变 得 模糊 ， 无 法 分 辨 出 一 枚 枚 单独 
的 树叶 。 同 样 ， 当 图 案 比 光 的 波长 还 小 时 ， 也 会 发 生 模糊 而 无 法 清晰 感光 的 情况 。 为 了 能 够 印 
制 出 比 光 的 波长 更 细小 的 电路 ， 人 们 采用 了 各 种 各 样 的 方法 ， 例 如 在 透镜 和 蝇 圆 之 间 填 充 纯 水 
来 缩短 光 的 波长 等 ,但 这 个 极限 壕 早 会 到 来 。 下 一 步 钨 怕 会 使 用 波长 更 短 的 远 紫 外 线 或 X 射线 。 
但 波长 太 短 的 话 ， 透 镜 也 就 无 法 使 用 了 *"， 处 理 起 来 十 分 困难 。 或 许可 以 用 反射 镜 来 替代 透镜 ， 
但 曝光 机 构 会 变 得 非常 庞大 ， 成 本 也 会 上 升 。 








其 次 ， 即 便 这 样 真 的 能 够 形成 更 加 细微 的 电路 ， 还 会 发 生男 外 一 些 问题 。 当 电路 变 得 非常 
精细 时 ,就 会 发 生 一 些 超 出 经 典 物 理 而 进入 量子 物理 范畴 的 现象 ,其 中 一 个 例子 就 是 “ 隧 穿 效应 ”。 
关于 隧 穿 效应 的 详细 知识 在 这 里 就 省 略 了 《因为 我 自己 也 不 太 明 白 )， 简 单 来 说 ， 即 便 是 电流 本 
该 无 法 通过 的 绝缘 体 ， 在 微观 尺度 上 也 会 有 少量 电子 能 够 穿 透 并 产生 微弱 的 电流 。 这 样 的 电流 
被 称 为 渗 漏 电流 ， 现 代 CPU 中 有 一 半 以 上 的 电力 都 消耗 在 了 渗 漏 电流 上 。 


















































精密 电路 中 还 会 产生 发 热 问 题 。 电 流 在 电路 中 流 过 就 会 产生 热量 ， 而 随 着 电路 的 精密 化 ， 
其 热 密 度 (单位 面积 所 产生 的 热量 ) 也 随 之 上 升 。 现 代 CPU 的 热 密 度 已 经 和 电 烤 炉 差 不 多 了 了 ， 
如 果 不 用 风扇 等 进行 冷却 ， 怒 怕 真 的 可 以 用 来 前 蛋 了 。 上 面 提 到 的 渗 漏电 流 也 会 转化 为 热量 ， 
因此 它 也 是 提升 热 密 度 的 因素 之 一 。 











假设 电路 的 精密 化 还 保持 和 现在 一 样 的 速度 ， 候 怕 不 久 的 将 来 就 会 看 到 这 样 的 情形 一 一 按 


下 开关 的 一 瞬间 整个 电路 就 蒸发 掉 了 (如果 没 有 适当 的 冷却 措施 的 话 )。 














QD X 射 线 很 难 使 用 透镜 来 聚焦 。 
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最 后 ,也 是 最 大 的 一 个 难题 ,就 是 需求 的 饱和 。 最 近 的 电脑 CPU 性 能 已 经 显得 有 些 驻足 不 前 。 
CPU 指标 中 最 为 人 知 的 应 该 就 是 主 频 了 。 尽 管 每 个 CPU 单位 频率 的 性 能 有 所 差异 ， 但 过 去 一 直 
快速 增长 的 CPU 主 频 ， 从 几 年 前 开始 就 在 2GHz 水 平 上 止步 不 前 ， 即 便 是 高 端 CPU 也 是 如 此 。 
而 过 去 在 Pentium 4 时 代 还 能 够 见 到 的 4GHz 级 别 主 频 的 产品 ， 今 天 已 经 销声匿迹 了 。 























这 是 因为 ， 像 收发 邮件 、 浏 览 网 页 、 撰 写 文稿 这 些 一 般 大 众 级 别 的 应 用 所 需要 的 电脑 性 能 ， 
用 低 端 CPU 就 完全 可 以 满足 ， 主 频 竞争 的 降温 与 这 一 现状 不 无 关系 。 








进一步 说 ， 过 去 人 们 一 直 习 惯 于 认为 CPU 的 性 能 是 由 主 频 决定 的 。 而 现在 ， 在 多 核 等 技术 
的 影响 下 ， 主 频 已 经 不 是 决定 性 能 的 唯一 因素 了 。 这 也 成 为 主 频 竞争 的 必然 性 日 趋 下 降 的 一 个 
原因 。 实 际 上 ， 以 高 主 频 著称 的 Pentium 4， 其 单位 频率 性 能 却 不 怎么 高 ， 可 以 说 是 被 主 频 竞争 
所 扭曲 的 一 代 CPU 吧 。 











上 面 介 绍 的 这 些 对 摩尔 定律 所 构成 的 障碍 ， 依 靠 各 种 技术 革新 来 克服 它们 应 该 说 也 并 非 不 
， 只 是 这 样 做 伴随 着 一 定 的 成 本 。 从 技术 革新 的 角度 来 看 ， 如 果 制 造 出 昂贵 的 CPU 也 能 卖 
得 出 去 ， 这 样 的 环境 才 是 理想 的 。 当 然 ， 总 有 一 些 领域 ， 如 3D 图形、 视频 编码 、 物 理 计算 等 ， 
即便 再 强大 的 CPU 也 不 够 用 。 但 是 这 样 的 领域 毕竟 有 限 。 每 年 不 断 高 涨 的 技术 革新 成 本 到 底 该 
如 何 筹措 ， 还 是 应 该 放弃 技术 革新 从 竞争 中 退出 ”近年 来 受到 全 球 经 济 形 势 低迷 的 影响 ， 半 导 
体制 造 商 们 也 面临 着 这 一 艰难 的 抉择 。 












































尽 超越 极限 





正如 之 前 讲 过 的 ， 摩 尔 定律 已 经 接近 极限 ， 这 是 不 争 的 事实 。 退 一 万 步 说 ， 即 使 集成 电路 
的 精密 化 真 的 能 够 按 现 有 的 速度 一 直 演 进 下 去 ， 总 有 一 天 一 个 晶体 管 会 变 得 比 一 个 原子 还 小 。 








不 过 ， 距 离 这 一 终极 极限 尚且 还 有 一 定 的 余地 。 现 在 我 们 所 面临 的 课题 ， 解 决 起 来 的 确 很 
有 难度 ， 但 并 没有 到 达 无 法 克服 的 地 步 。 








首先 ， 关 于 导线 宽度 的 问题 ， 运 用 远 紫 外 线 和 射线 的 工艺 已 经 处 于 研发 阶段 。 由 于 这 些 
波长 极 短 的 光源 难以 掌控 ， 因 此 装置 会 变 得 更 大 ， 成 本 也 会 变 得 更 高 。 但 反 过 来 说 ， 我 们 已 经 
知道 这 样 的 做 法 是 行 得 通 的 ， 剩 下 的 事情 只 要 花 钱 就 能 够 解决 了 。 





比较 难以 解决 的 是 渗 漏 电流 及 其 所 伴随 的 发 热 问 题 。 随 着 半导体 工艺 技术 的 改善 ， 对 于 如 
何 降低 渗 漏 电流 ， 也 提出 了 很 多 种 方案 。 例 如 通过 在 硅 晶 体 中 形成 二 氧化 硅 绝缘 膜 来 降低 渗 漏 
电流 的 SOI ( Silicon On Insulator ) 等 技术 。 此 外 ， 采 用 硅 以 外 的 材料 来 制造 集成 电路 的 技术 也 
正在 研究 之 中 ,但 距离 实用 化 还 比较 遥远 。 
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(多核 时 代 的 编程 

















从 现 阶段 来 看 ， 要 从 根本 上 解决 渗 漏 电流 的 问题 是 很 困难 的 ， 但 是 像 通过 切断 空闲 核心 和 


电路 的 供电 来 抑制 


耗 电量 ( 也 就 抑制 了 发 热 ), 以 及 关闭 空闲 核心 并 提升 剩余 核心 工作 主 频 ( Hyper 


Boost ) 等 技术 ， 目 前 都 已 经 实用 化 了 。 


尺 .不 再 有 免费 的 午餐 





看 了 上 面 的 介绍 ， 想 必 大 家 已 经 对 摩尔 定律 ， 以 及 随 之 不 断 增加 的 晶体 管 能 够 造就 何等 快 
速 的 CPU 有 了 一 个 大 致 的 了 解 。 现 代 的 CPU 中 ,通过 大 量 晶 体 管 来 实现 高 速 化 的 技术 随处 可 见 。 





然而 与 此 同时 ， 我 们 印象 中 的 CPU 执行 模型 ， 与 实际 CPU 内 部 的 处 理 也 已 经 大 相 径 庭 。 


由 条 件 分 支 导 致 的 
象 来 看 都 是 难以 想 








流水 线 气 泡 ， 以 及 为 了 克服 内 存 延 迟 所 使 用 的 高 速 缓存 等 ， 从 8086 时 代 的 印 
象 的 。 


而 且 ， 什么 也 不 用 考虑 ， 随 着 时 间 的 推移 CPU 自然 会 变 得 越 来 越 快 ， 这样 的 趋势 也 快要 
接近 极限 了 。 长 期 以 来 ， 软 件 开 发 者 一 直 受 到 硬件 进步 的 恩惠 ， 即 便 不 进行 任何 优化 ， 随 着 计 





算 机 的 更 新 换代 ， 
机 ， 有 时 也 并 不 能 


特性 。 





同样 的 价格 所 能 够 买 到 的 性 能 也 越 来 越 高 。 不 过 ， 现 在 即便 换 了 新 的 计算 
带 来 直接 的 性 能 提升 。 要 想 提 升 性 能 ， 则 必须 要 积极 运用 多 核 以 及 CPU 的 新 

















最 近 ，GPGPU ( General Purpose GPU， 即 将 GPU 用 于 图 形 处 理 之 外 的 通用 编程 ) 受到 了 越 


来 越 多 的 关注 ， 由 
技术 。 

















于 GPU 与 传统 CPU 的 计算 模型 有 着 本 质 的 区 别 ， 因 此 需要 采用 专门 的 编程 


即便 什么 都 不 做 ，CPU 也 会 变 得 越 来 越 快 的 时 代 结 束 了 ,今后 为 了 活用 新 的 硬件 ， 软 件 开 


发 者 必须 要 付出 更 








多 的 努力 一 一 这 样 的 情况 ， 我 将 其 称 为 “免费 午餐 的 终结 ”。 


在 未 来 的 软件 开发 中 ， 如 果 不 能 了 解 CPU 的 新 趋势 ， 就 无 法 提高 性 能 。 新 的 计算 设备 必然 


需要 新 的 计算 模型 
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， 而 这 样 的 时 代 已 经 到 来 。 


图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


Z 3™™™™™™ 
0.2 UNIX 管道 - 

- 目 写 
BO 


SN 


SSS 


诞生 于 20 世纪 60 年 代 后 半 的 UNIX， 与 之 前 的 操作 系统 相 比 ， 具 有 一 些 独到 的 特点 ， 其 
中 之 一 就 是 文件 的 结构 。 在 UNIX 之 前 ， 大 多 数 操作 系统 中 的 文件 指 的 是 结构 化 文件 。 如 果 熟 
悉 COBOL 的 话 解释 起 来 会 容易 一 些 ， 所 谓 结 构 化 文件 就 是 拥有 结构 的 记录 的 罗列 (图 1)。 





但 UNIX 的 设计 方针 是 重视 简洁 ， 因 此 在 UNIX 中 抛弃 了 对 文件 本 身 赋予 结构 的 做 法 ， 而 
是 将 文件 定义 为 单纯 的 字 节 流 。 对 于 这 些 字 节 流 应 当 如 何 解 释 ， 则 交 给 每 个 应 用 程序 来 负责 。 
文件 的 内 容 是 文本 还 是 二 进 制 ， 也 并 没有 任何 区 别 。 








结构 化 文件 例如 ， 图 1 中 所 示 的 平面 文件 (flat file )， 是 采用 每 行 
姓名 松本 行 弘 一 条 记录 、 记 录 的 成 员 之 间 用 逗号 进行 分 隔 的 CSV ( Comma 
地 全 Separated Values ) 格式 来 表现 数据 的 。 这 并 不 是 说 UNIX 对 
员工 编号 “| 7 CSV 这 种 文件 格式 有 特别 的 规定 ， 而 只 是 相应 的 应 用 程序 能 
Pa 够 对 平面 文件 中 存放 的 CSV 数据 进行 解释 而 已 。 

地 址 东京 都 平面 文件 ( CSV ) 


i | 姓名 地址， 电话 号 码 ， 员 工 编号 ， 基 本 工资 


松本 行 弘 , 岛 根 县 ,0852-28-XXXX,0007,200000 





















































管 田 耕 一 ， 东 京都 ,03-3855-XXXX,0033,180000 











久 1 结构 化 文件 与 平面 文件 


UNIX 的 另 一 个 独到 之 处 就 是 Shell。Shell 是 UNIX 用 来 和 用 户 进行 交互 的 界面 ， 同 时 也 是 
能 够 将 命令 批 处 理化 的 一 种 语言 。 












































在 UNIX 之 前 的 操作 系统 中 ， 也 有 类 似 的 命令 管理 语言 ， 如 JCL (Job Control Language )。 
但 和 JCL 相 比 ，Shell 作为 编程 语言 的 功能 更 加 丰富 ， 可 以 对 多 个 命令 进行 灵活 地 组 合 。 如 果 
要 重复 执行 同样 的 操作 ， 只 要 将 操作 过 程 记录 到 文件 中 ， 就 能 够 很 容易 地 作为 程序 来 执行 。 像 
这 样 由 “执行 记录 ”生成 的 程序 ， 被 称 为 脚本 ( script )， 这 也 是 之 后 脚本 语言 ( script language ) 
这 一 名 称 的 辞源 。 



































Qz9 这 里 的 “管道 ”和 上 一 节 中 的 “流水 线 ” 都 来 自 同一 个 英文 单词 pipeline， 它 们 在 本 质 上 的 含义 也 是 相同 的 ， 只 
是 在 不 同 的 领域 中 习惯 译 法 不 同 。 
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在 UNIX 中 至 今 依然 存在 script 这 个 命令 ， 这 个 命令 的 功能 是 将 用 户 在 Shell 中 的 输入 内 容 
记录 到 文件 中 ， 根 据 所 记录 的 内 容 可 以 编写 出 脚本 程序 。script 一 词 原本 是 “剧本 ”的 意思 ， 不 
过 命令 行 输入 是 一 种 即兴 的 记录 ， 也 许 叫 做 improvisation( 即兴 表演 ) 更 加 合适 。 











最 后 一 点 就 是 串 流 管道 ( stream pipeline )。UNIX 进程 都 具有 标准 输入 和 标准 输出 ( 还 有 标 
准 错误 输出 ) 等 默认 的 输入 输出 目标 ， 而 Shell 在 启动 命令 时 可 以 对 这 些 输入 输出 目标 进行 连接 
和 替换 。 通 过 这 样 的 方式 ， 就 可 以 将 某 个 命令 的 输出 作为 男 一 个 命令 的 输入 ， 并 将 输出 进一步 
作为 男 一 个 命令 的 输入 ， 也 就 是 实现 了 命令 的 “串联 ”。 








在 现代 的 我 们 看 来 ， 这 三 个 特征 都 已 经 是 司空 见 惯 了 的 ， 但 可 以 想象 , 在 UNIX 诞生 之 初 ， 
这 些 特 征 可 是 相当 创新 的 。 





人 管道 编程 








下 面 我 们 来 看 一 看 运用 了 串 流 管道 的 实际 程序 。 图 2 是 经 常 被 用 作 MapReduce 例题 的 用 
于 统计 文件 中 单词 个 数 的 程序 。 


通过 这 个 程序 来 读 取 Ruby 的 README 文件 ， 会 输出 图 3 这 样 的 结果 。 








Goce sonum: a mn gepe ve 0 ns sor eu esom tr 
2 单词 计数 程序 

Shell 中 ， 用 “|” 连 接 的 命令 ， 其 标准 输出 和 标准 输入 会 被 连接 起 来 形成 一 个 管道 。 这 个 程 
序 是 由 以 下 5 条 命令 组 成 的 管道 。 





页 




















br en :on ml ne 
qrepov ee lO ns 
SiO 

Une 

SIOM 


下 面 我 们 来 具体 讲解 一 下 每 个 命令 的 功能 。 


OPODP 





“tr” 是 translate 的 缩写 ， 其 功能 是 将 输入 的 数据 进行 字符 蔡 换 。tr 会 将 第 一 个 参数 所 指定 
的 字符 集合 ( 这 里 的 [:alnum:] 表示 字母 及 数字 的 意思 ) 用 第 二 个 参数 所 指定 的 字符 进行 替换 。“-c 
( complement )》” 选 项 的 意思 是 反 转 匹配 ， 整 体 来 看 这 条 命令 的 功能 就 是 “将 除 字母 和 数字 以 外 
的 字符 替换 成 换行 符 ”。 












































@ 一 种 通过 分 布 式 并 行 处 理 对 庞大 数据 库 进 行 高 速 访问 的 手法 ,分 为 “Map” 和 “Reduce” 两 个 步 又 进行 处 理 。( 原 
书 注 ) 
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grep 命令 用 来 搜索 与 模板 相 匹配 的 行 。 在 这 里 ， 模 板 是 通过 正则 表达 式 来 指定 的 : 


















































| [OR ey 
这 里 ，“^” 表 示 匹 配 行 首 ，“$” 表 示 匹 配 行 尾 ，“[0-9]*” 表 es 
示 匹 配 “0 个 或 多 个 数字 组 成 的 字符 串 "。 结 果 ， 这 一 模板 所 匹配 23 the 
的 是 “只 有 数字 的 行 或 者 是 空 行 "。 1 
WonDESMOR 
-V( revert ) 选项 表示 反 转 匹配 ,也 就 是 显示 不 匹配 的 行 。 因 此 ， 13 and 
这 条 grep 命令 的 执行 结果 是 “删除 空 行 或 者 只 有 数字 的 行 ”。 
ll TG 
之 前 的 tt 命令 已 经 将 字母 和 数字 之 外 的 字符 全 部 替换 成 了 换 11 TEEN 
行 符 ， 也 就 是 说 将 符号 、 空 格 等 全 部 转换 成 了 只 有 一 个 换行 符 的 让 
行 ( 即 空 行 ) 对 空 行 计数 是 没有 意义 的 ， 因 此 需要 忽略 这 些 空 行 。 
此 外 ， 只 有 数字 的 行 也 不 能 算是 单词 ， 因 此 也 需要 忽略 。 5 org 
接 下 来 的 sort 是 对 行进 行 重新 排序 的 命令 。 到 这 条 命令 之 前 ， ja 
数据 流 已 经 被 转换 成 每 行 一 个 单词 的 排列 形式 ， 通 过 sort 命令 可 ee 
以 对 原文 中 出 现 的 单词 按照 字母 顺序 进行 排序 。 这 一 排序 操作 看 。 “*， 
似 没什么 用 ， 但 接 下 来 我 们 需要 用 uniq 命令 去 掉 重复 的 行 ， 因 此 人 
必须 事先 对 输入 的 数据 流 进行 排序 。 1 Advanced 














uniq 是 unique 的 缩写 ， 该 命令 可 以 从 已 排序 的 文件 中 去 掉 重 。 图 3 单词 计数 结果 ( 节选 ， 
复 的 行 。-c (count ) 选项 表示 在 去 掉 重复 行 的 同时 显示 重复 的 行 数 。 在 这 里 我 们 输入 的 文件 是 
每 行 一 个 单词 的 形式 ， 因 此 统计 出 已 排序 的 单词 序列 中 重复 的 行 数 ， 也 就 相当 于 是 统计 出 了 单 
词 的 数量 。unid 命令 才 是 单词 计数 的 本 质 部 分 。 











最 后 我 们 用 sort -r 命令 对 输出 的 信息 进行 整形 。unig 命令 执行 完毕 之 后 ， 就 完成 了 “统计 
单词 数量 ”这 一 任务 ， 但 从 人 类 的 角度 来 看 ， 将 单词 按 出 现 的 数量 降序 排列 才 是 最 自然 的 ， 
此 我 们 再 执行 一 次 sort 命令 。 








我 们 希望 在 查看 统计 结果 时 将 出 现 数量 最 多 的 单词 ( 可 以 认为 是 比较 重要 的 单词 ) 放 在 前 面 ， 
因此 这 次 我 们 对 sort 命令 加 上 了 -r (reverse ) 选项 ， 这 个 选项 代表 降序 排列 的 意思 。 这 个 命令 
有 一 个 副作用 ， 就 是 出 现 数量 相同 的 单词 ， 会 被 按照 字母 道 序 排列 ， 这 一 点 就 请 大 家 多 多 包 
涵 吧 。 











J 一 种 用 特殊 字符 描述 字符 串 匹 配 模板 的 手法 。( 原 书 注 ) 
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将 单词 按 出 现 数量 降序 排列 的 同时 ， 还 要 将 出 现 数 相 同 的 单词 按 字 母 顺序 排列 ， 实 现 起 来 
是 出 乎 意料 地 麻烦 。 这 里 就 当 是 给 各 位 读者 留 个 思考 题 吧 。 其 实用 Ruby 和 Awk 就 可 以 比较 容 
易 地 解决 这 个 问题 了 。 

















像 上 面 这 样 ,将 完成 一 个 个 简单 任务 的 命令 组 合 起 来 形成 管道 ,就 可 以 完成 各 种 各 样 的 工作 ， 
这 就 是 UNIX 范 儿 的 管道 编程 。 





包 多 核 时 代 的 管道 
在 UNIX 诞生 的 20 世纪 60 年 代 未 ， 多 核 CPU 还 不 存在 ， 因 此 管道 原本 的 设计 也 并 非 以 运 
用 多 核 为 前 提 。 然 而 ， 不 知 是 偶然 还 是 必然 ， 管 道 对 于 多 核 的 运用 却 是 非常 有 效 的 。 
下 面 我 们 来 看 看 在 多 核 环境 中 ， 管 道 的 执行 是 何等 高 效 。 


首先 ， 我 们 来 思考 一 下 非常 原始 的 单 任 务 操作 系统 ， 例 如 MS-DOS。 说 是 “原始 ”， 但 其 实 
MS-DOS 相 比 UNIX 来 说 算是 非常 年 轻 的 ， 在 这 里 我 们 先 忽略 这 一 点 吧 。 在 MS-DOS 中 ， 同 时 
只 能 有 一 个 进程 在 工作 ， 因 此 管道 是 通过 临时 文件 来 实现 的 。 例 如 ， 当 执行 下 列 管道 命令 时 : 






































command-a | command-b 


MS-DOS ( 准确 地 说 应 该 是 相当 于 Shell 的 command-a | 
、 command-a 是 临时 文件 
command.com ) 会 生成 一 个 临时 文件 ， 并 


将 “command-a” 的 输出 结果 写 入 文件 中 。 Ed 
d-a 的 执行 结束 之 后 ， 再 以 该 临 

om Th 人 再 a pp 

时 文件 作为 输入 源 来 执行 “command-b”。 

由 于 MS-DOS 是 一 个 单 任务 操作 系统 ， 每 次 只 能 进行 一 项 处 理 ， 当 然 也 就 无 法 对 多 核 进行 运用 

(图 4)。 



































接 下 来 我 们 来 思考 一 下 单 核 环境 下 的 多 任务 操作 系统 。 在 这 样 的 环境 下 ， 管 道 的 命令 是 并 
行 执行 的 。 但 由 于 只 有 一 个 核心 ， 因 此 无 法 做 到 完全 同时 进行 。 和 刚才 一 样 ， 执 行 下 列 命令 : 





command-a | command-b 
这 次 command-a 与 command-b 是 同时 启动 的 。 
然后 ， 进 程 会 在 不 断 相 互 切 换 中 各 自 执 行 ，command-b 会 进入 等 待 输 入 的 状态 。 当 


command-b 为 读 取 数 据 发 出 系统 调用 时 ， 如 果 和 暂时 没有 立即 可 供 读 取 的 数据 ， 则 操作 系统 会 在 
数据 准备 好 之 前 暂停 command-b 的 进程 ， 并 使 其 休眠 。 
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另 一 方面 ，command-a 继续 执行 ， 其 结果 会 输出 到 某 个 地 方 。 这 样 一 来 command-b 就 有 了 
可 供 读 取 的 数据 ，command-b 的 进程 就 会 被 唤醒 并 恢复 执行 。 











像 这 样 ， 数 据 输出 以 接力 棒 的 形式 进行 运作 ， 多 个 进程 交替 工作 ， 就 是 单 核 多 任务 环境 中 
的 执行 方式 (图 5 )。 


和 单 任务 相 比 ， 多 任务 环境 下 的 优势 在 于 没有 了 无 谓 的 文件 输入 输出 操作 ， 从 而 削减 了 相 
应 的 开销 。 














而 且 ， 由 于 多 个 进程 是 依次 执行 的 ， 先 得 出 的 结果 会 立即 通过 管道 传递 ， 因 此 获取 结果 也 
会 比较 快 一 些 。 
不 过 ,在 多 任务 环境 下 ,进程 的 切换 也 需要 一 定 的 开销 ,从 总 体 来 看 ,执行 时 间 也 未 必 会 缩短 。 


接 下 来 终于 要 讲 到 多 核 环境 下 的 管道 了 。 简 单 起 见 ， 在 这 里 我 们 假设 将 command-a 和 
command-b 分 别 分 配给 两 个 不 同 的 核心 ， 在 这 样 的 情况 下 ， 管 道 执行 如 图 6 所 示 。 





command-a 初始 化 | 输出 处 理 输出 处 理 上 下 


~ 到 | 国 回国 国 国 四 


图 5 多 任务 操作 系统 的 管道 ( 单 核 ) 


“| 国 甲 国 甲 国 症 
ee 面相 国 回国 国 四 加 


图 6 多 任务 操作 系统 的 管道 ( 多 核 ) 

我 们 可 以 看 出 ， 和 图 5 相 比 ， 同 时 执行 的 部 分 增多 了 。 非 常 粗 略 地 数 了 一 下 ， 图 4 中 需要 
11 步 完 成 的 处 理 ， 这 里 只 需要 8 步 就 完成 了 。 不 过 我 们 投入 了 两 个 核心 ， 理 想 状 态 下 应 该 比 单 
核 缩 短 一 半 ， 但 这 样 的 理想 状态 是 很 难 实现 的 。 

假设 操作 系统 足够 聪明 的 前 提 下 ， 只 要 增加 管道 的 级 数 ， 使 能 够 重 全 的 部 分 也 相应 增加 ， 
即便 不 特意 去 管 多 个 核心 的 配置 ， 只 要 自然 编写 程序 形成 管道 ， 操 作 系 统 就 会 自动 利用 多 个 核 
心 来 提高 处 理 能 力 。 之 所 以 说 串 流 管道 是 非常 适合 多 核 的 一 种 编程 模型 ， 原 因 也 正 是 在 于 此 。 




































































依 Xargs 一 一 男 一 种 运用 核心 的 方式 








大 家 知道 xargs 这 个 命令 吗 ? xargs 是 用 于 将 标准 输入 转换 成 命令 行 参数 的 命令 。 
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例如 ， 要 在 当前 目录 下 搜索 所 有 文件 名 中 以 “~ ”结尾 的 文件 ， 需 要 执行 fnd 命令 : 
关于 人 limdiSEamea 二 刘 
这 样 就 会 将 符合 条 件 的 文件 名 在 标准 输出 中 列 出 。 

那么 ， 如 果 我 要 将 这 些 文件 全 部 删除 的 话 又 该 怎么 做 呢 ? 这 时 就 该 轮 到 xargs 命令 出 场 了 。 
# find . -name '*~'|xargs rm 
这 样 一 来 ， 传 递 到 xargs 标准 输入 的 文件 名 列表 就 作为 命令 行 参数 传递 给 了 rm 命令 ， 于 是 就 删 
除了 符合 条 件 的 所 有 文件 。 























还 有 一 个 很 少 有 人 会 实际 碰 到 的 问题 ， 那 就 是 命令 行 参数 的 数量 是 有 上 限 的 ， 如 果 传 递 的 
参数 过 多 , 命令 执行 就 会 失败 。xargs 也 考虑 了 这 一 点 ， 当 参数 过 多 时 会 分 成 几 条 命令 分 别 执行 。 





上 面 所 讲 的 内 容 与 多 核 没 什么 关系 ， 不 过 xargs 提供 了 一 个 用 于 多 核 的 命令 行 参数 “-P”。 





如 图 7 所 示 ， 是 用 于 将 当前 目录 下 未 压缩 的 ( 即 扩展 名 不 是 .gz 的 ) 文件 全 部 进行 压缩 的 


siindme uu namnen* gz typene printonxargs no pA rgzdp oe 
图 7 文件 压缩 管道 命令 


首先 是 find 命令 ， 它 的 含义 如 下 : 





























口 “.” 表 示 当 前 目录 下 

口 ^\! -name *.gzZ” 表 示 文 件 名 不 以 .gz 结 

口 “-type f ”表示 一 般 文 件 〈 而 不 是 目录 等 特殊 文件 ) 

口 “-print0” 表 示 将 符合 上 述 条 件 的 文件 名 打印 到 标准 输出 。 为 了 应 对 包含 空格 的 文件 名 ， 
采用 null 作为 分 隔 符 。 


这 样 我 们 就 得 到 了 “当前 目录 下 未 压缩 的 文件 名 列表 ”。 得 到 该 列表 之 后 ,xargs 命令 被 执行 。 
xargs 命令 中 的 “-P” 选 项 ,表示 同时 启动 指定 数量 的 进程 ,这 里 我 们 设 定 为 同时 执行 4 个 进程 。“-r” 
选项 表示 当 输 入 为 空 时 不 启动 命令 ， 即 当 不 存在 符合 条 件 的 文件 时 就 表示 不 用 进行 压缩 ， 因 此 
我 们 在 这 里 使 用 了 “-r” 选 项 。 



































为 了 应 付 空格 ，find 命令 使 用 了 “-print0” 选 项 ， 相 应 地 ， 必 须 同 时 使 用 “-null” 选 项 。 通 
过 这 样 的 操作 ， 就 实现 了 将 要 压缩 的 对 象 文 件 名 作为 参数 传递 给 “gzip -9” 命 令 来 执行 。 
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gzip 命令 的 “-9” 选 项 表示 使 用 较 高 的 压缩 率 ( 会 花费 更 多 的 时 间 )。 


我 们 知道 ,文件 的 压缩 比 单纯 的 输入 输出 要 更 加 耗 时 ， 而 且 ， 多 个 文件 的 压缩 操作 之 间 没 
有 相互 依赖 的 关系 ， 这 些 操作 是 相互 独立 进行 的 。 对 于 这 样 的 操作 ， 如 果 能 够 分 配 到 多 个 进程 
来 同时 进行 ， 应 该 说 是 最 适合 多 核 环境 的 工作 方式 。 











在 多 核 环境 中 ， 是 否 对 xargs 命令 使 用 “-P” 选 项 ， 直 接 影响 了 处 理 所 需 要 的 时 间 。 由 于 gzip 
命令 的 输入 输出 等 操作 也 需要 一 定 的 处 理 时 间 ， 因 此 -P 设 定 的 进程 数 应 该 略 大 于 实际 的 核心 数 。 
我 用 手 上 的 双核 电脑 进行 了 测试 ， 用 两 个 核心 设 定 4 个 进程 来 执行 时 ， 可 以 获得 最 高 的 性 能 。 





不 过 ,在 我 所 做 的 测试 中 ， 当 文件 数量 较 少 时 ， 即 便 使 用 了 -P 选项 ， 也 只 能 启动 一 个 进程 ， 
无 法 充分 利用 多 核 。 在 这 种 情况 下 ,对 xargs 命令 使 用 -n 选 项 来 设 定 gzip 一 次 性 处 理 的 文件 数量 ， 
也 许 是 个 好 主意 。 








例如 ， 如 果 使 用 “-n 10” 选 项 ， 就 可 以 对 每 10 个 文件 启动 一 个 gzip 进程 。 在 我 所 做 的 测 
试 中 ,启动 4 个 进程 进行 并 行 压 缩 时 ， 处 理 速 度 可 以 提高 大 约 40%。 理 想 状态 下 ， 两 个 核心 应 
该 可 以 得 到 100% 的 性 能 提升 ， 因 此 40% 的 成 绩 比 我 预想 的 要 低 。 当 然 ， 这 也 说 明 在 实际 的 处 
理 中 ， 有 很 大 一 部 分 输入 输出 的 开销 是 无 法 通过 增加 核心 数量 来 弥补 的 。 

















全 注意 瓶颈 


























在 这 里 需要 注意 的 是 ,瓶颈 到 底 发 生 在 哪里 。 








多 核 环境 是 将 任务 分 配给 多 个 CPU 来 提高 单位 时 间 处 理 能 力 的 一 种 手段 。 也 就 是 说 ， 只 有 
当 CPU 能 力 成 为 处 理 瓶 颈 时 ， 这 一 手段 才能 有 效 改善 性 能 。 





然而 ,一 般 的 多 核 计算 机 上 ， 尽 管 搭载 7 多 个 CPU， 但 其 他 设备 ， 如 内 存 、 磁 盘 、 网 络 设 
备 等 是 共享 的 。 当 处 理 的 瓶颈 存在 于 CPU 之 外 的 这 些 地方 时 ， 即 便 投 入 多 个 核心 ， 也 丝毫 无 法 
改善 性 能 。 











在 这 种 情况 下 ,我 们 需要 的 不 仅 是 多 个 CPU ,而 是 由 多 台 “ 计 算 机 ”组 成 的 分 布 式 计算 环境 。 
分 布 式 计算 也 是 一 项 相当 重要 的 技术 ， 我 们 在 这 里 不 再 过 多 缆 述 。 


尺 阿 姆 达尔 定律 

















阿 姆 达尔 定律 是 一 个 估算 通过 多 核 并 行 能 够 获得 多 少 性 能 提升 的 经 验 法 则 ， 是 由 吉 恩 阿 
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姆 达尔 (Gene Amdahl，1922 ~ ) 提出 的 ， 它 的 内 容 是 : 


( 通过 并 行 计算 所 获得 的 ) 系统 性 能 提升 效果 ,会 随 着 无 法 并 行 的 部 分 而 产生 
饱和 。 








正如 在 刚才 xargs 的 示例 中 所 遇 到 的 , 即便 是 多 核 计算 机 , 一 般 也 只 有 一 个 输入 输出 控制 器 ， 
而 这 个 部 分 无 法 获得 并 行 计算 所 带 来 的 效果 ， 很 容易 成 为 钵 贷 。 








而 且 ， 当 数据 之 间 存 在 相互 依赖 关系 时 ， 在 所 依赖 的 数据 准备 好 之 前 ， 即 便 有 空闲 的 核心 
也 无 法 开始 工作 ， 这 也 会 成 为 瓶 宽 。 


综 上 所 述 ， 大 多 数 的 处 理 都 不 具备 “只 要 增加 核心 就 能 够 提高 速度 ”这 一 良好 的 性 质 ， 这 
一 点 与 在 CPU 内 部 实现 流水 线 的 艰辛 似乎 存在 一 定 的 相似 性 。 
根据 阿 姆 达 尔 定律 ， 并 行 化 之 后 的 速度 提升 比例 可 以 通过 图 8 的 公式 来 估算 。 假 设 N 为 无 
穷 大 ， 速 度 的 提升 最 多 也 只 能 达到 











1 / (1 


例如 ， 即 便 在 P 为 90% 这 一 非 
常理 想 的 情况 下 ， 无 论 如 何 提高 并 行 2 
程度 ， 整 体 上 最 多 能 够 获得 的 性 能 提 。” ”Pp -本 并行 化 部 分 的 占 比 ( 相对 于 基准 运算 时 间 而 言 可 并 行 处 理 
升 也 无 法 超过 基准 的 10 倍 。 这 是 因 。 国 ee 
为 ，“(1 -了 )” 所 代表 的 无 法 并 行 化 的 。 图 8 并 行 化 后 速度 提升 比例 的 公式 
部 分 成 为 了 瓶 贷 ， 使 得 并 行 化 效果 存 
在 极限 。 
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像 我 们 这 些 工程 师 在 用 电脑 时 ， 最 消耗 CPU 的 工作 恐 介 就 是 编译 了 。 当 然 ， 编 译 也 伴随 一 
定 的 输入 输出 操作 ， 但 预 处 理 、 语 法 解析 、 优 化 、 代 码 生成 等 操作 对 于 CPU 的 开销 是 相当 大 的 。 

















要 编译 一 个 文件 ,首先 需要 将 C 语言 源 文 件 (*.c ) 进 行 预 处 理 ( cpp )。cpp 会 进行 头 文件 ( *.h ) 
加 载 (#include )、 宏 定义 (#define )、 宏 展开 等 操作 。 





cpp 的 运行 结果 被 送 至 编译 器 主体 (ccl )。ccl 会 进行 语句 、 语 法 解析 和 代码 优化 ， 并 输出 
汇编 文件 (*.s )。 随 后 ， 汇 编 费 会 将 汇编 文件 转换 为 对 象 文件 (*.o )， 也 有 些 编译 需 可 以 不 通过 
汇编 右 直 接 输 出 对 象 文件 。 
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当 每 个 C 语言 源 文件 都 完成 编译 ， 并 生成 相应 的 对 象 文件 之 后 ， 就 可 以 启动 连接 器 (1d ) 
来 生成 最 终 的 可 执行 文件 了 。 连 接 器 会 将 对 象 文 件 与 各 种 库 文件 〈 静态 链接 库 *.a 和 动态 链接 库 
*.S0 ) 进行 连接 ( 某 些 情 况 下 还 会 进行 











一 些 优化 )， 并 输出 最 终 的 可 执行 文件 。 全 下 i 0 
.CE (cpp) -和 (ccl) > (as) 
(图 9)。 人 
UNIX 的 “ake” 工具 中 提供 了 hh ee le) —_ (1d) —— 可 执行 文件 
一 个 正好 可 以 用 于 多 核 的 选项 一 一 “-j soso 
(jobs )， 通 过 这 个 选项 可 以 设 定 同 时 图 9 C 语言 编译 流程 














执行 的 进程 数量 。 例 如 : 
# make -j4 


就 表示 用 4 个 线程 进行 并 行 编译 。 从 过 去 的 经 验 来 看 ，-j 的 设置 应 该 略 大 于 实际 的 核心 数量 
为 佳 。 




















Qccache 





我 们 先 放下 多 核 的 话题 ,说 点 别 的 。 有 一 个 叫做 ccache 的 工具 ， 可 以 有 效 提 高 编译 的 速度 。 
ccache 是 通过 将 编译 结果 进行 缓存 ， 来 减少 再 次 编译 的 工作 量 ， 从 而 提高 编译 速度 的 。 

使 用 方法 很 简单 ， 编 译 时 在 编译 器 名 称 前 面 加 上 ccache 即 可 。 例 如 : 
# CC="'ccache gcc' make -j4 
这 样 就 可 以 让 再 次 编译 时 所 需 的 时 间 大 幅 缩 短 。 每 次 都 指定 的 话 比 较 麻烦 ， 也 可 以 一 开始 就 写 
到 Makefile 中 。 

当 源 代码 或 者 其 所 依赖 的 头 文件 等 发 生 修改 时 ，make 会 重新 执行 编译 。 不 过 ， 源 文件 中 也 
有 很 多 行 是 和 实际 变更 的 部 分 无 关 的 ， 而 ccache 会 将 (以 函数 为 单位 的 ) 编译 结果 保存 在 主 目 
录 下 的 “.ccache” 目 录 中 ， 然 后 ， 在 实际 执行 编译 之 前 ， 与 过 去 的 编译 结果 进行 比较 ， 如 果 源 
代码 的 相应 部 分 没有 发 生 修改 ， 则 直接 使 用 过 去 的 编译 结 


在 CPU 中 ， 缓 存 是 高 速 化 的 一 个 重要 手段 ， 而 在 改善 编译 速度 的 场景 中 ， 也 可 以 应 用 缓存 
技术 。 像 这 样 ， 类 似 的 手段 出 现在 各 种 不 同 的 场景 中 ， 的 确 是 很 有 意思 的 事情 。 


QQd istcc 


还 有 其 他 一 些 改善 编译 速度 的 方法 ， 例 如 distcc 就 是 一 种 利用 多 台 计 算 机 来 改善 编译 速度 
的 工具 。 
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和 ccache 一 样 ， 只 要 在 编译 器 名 称 前 面 加 上 distcc 就 可 以 改善 编译 性 能 了 。 不 过 在 此 之 前 ， 
需要 先 配 置 好 用 哪些 计算 机 来 执行 编译 操作 。 在 下 列 配 置 文件 中 : 

















Hdsteehoskes 


填写 用 于 执行 编译 的 主机 名 ( 多 个 主机 名 之 间 用 逗号 分 隔 )。 























当然 ， 并 不 是 随便 填 哪 台 主 机 都 可 以 的 。 基 本 上 ， 用 于 执行 编译 的 主机 应 该 是 启动 了 
distccd 服务 的 主机 ， 或 者 是 可 以 通过 ssh 来 登录 的 主机 才 行 。 局 动 distccd 服务 的 主机 直接 填写 
主机 名 ， 可 在 ssh 登录 的 主机 前 面 加 上 一 个 “@”。 当 登录 的 用 户 名 和 本 机 不 同时 ， 需 要 在 @ 前 
面 写 上 用 户 名 。 



































通过 ssh 来 执行 会 提高 安全 性 ( distccd 没有 认证 机 制 ), 但 由 于 加 密 等 带 来 的 开销 ， 编 译 性 
能 会 下 降 25% 左右 ， 因 此 用 户 需 要 在 性 能 、 安 全 性 和 易 用 性 之 间 做 出 选择 。 














准备 妥当 之 后 ， 执 行 : 








# CC="distcce gcc” make =j4 
就 可 以 实现 分 布 式 编译 了 。 


distcc 的 伟大 之 处 在 于 ， 虽 然 是 分 布 式 编译 ， 但 无 需 拥 有 所 有 的 头 文件 和 库 文 件 等 完整 的 环 
境 ， 只 要 (在 同一 个 CPU 下 ) 安装 了 编译 需 ， 并 能 够 运行 ssh 的 主机 ， 就 可 以 很 容易 地 实现 分 
布 式 编译 。 之 所 以 能 够 实现 这 一 点 ， 秘 密 在 于 预 处 理 吉 和 连接 需 是 在 本 地 执行 的 ， 而 发 送 给 远 
程 主机 的 是 已 经 完成 预 处 理 的 文件 。 





















































座 


侣 已 
月 E 


那么 ， 通 过 使 用 上 述 这 些 手段 ， 到 底 能 够 对 编译 | 





表 1 ”编译 性 能 测试 
















































































人 带 3 和 改善 : 们 ] 来 实际 测试 一 En 
带 来 多 大 的 改 音 呢 ? 我 们 来 实际 测试 下 编译 条 件 编译 时 间 ( 秒 ) 

表 1 显示 了 运用 各 种 手段 后 的 测试 结果 ， 其 中 编译 的 人 一 

上 用 .3 人 J 了 [= 了 一 » |X gCC -] ， 
对 象 是 最 新 版 的 Ruby 解释 器 。 用 于 执行 编译 的 是 我 那 台 有 一 Ke 
些 古 老 的 爱 机 一 一 ThinkPad X61 Core2 duo 2.2GHz ( 双核 )。 仅 gcc jj8 11006 
distcc 分 布 式 编译 使 用 的 是 一 台 Quad-Core AMD Opteron ccache -jl 20.874 
2.4GHz (四 核 ) 的 计算 机 。 ccache jl( 第 ?次 ) | 0454 
distcc -j2 11.649 

使 用 未 经 过 任何 优化 的 gcc 进行 编译 时 ， 整 个 编译 过 distcc -j4 7.138 

程 需 要 约 18.5 秒 。 使 用 make 的 -j 选项 启动 多 个 进程 时 ， distcc j8 4 
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由 于 充分 利用 了 两 个 核心 ， 使 得 速度 提高 了 40% 以 上 。 








ccache 首次 执行 时 比 通常 情况 还 要 慢 一 点 ， 但 由 于 编译 结果 被 缓存 起 来 ， 在 删除 对 象 文件 
之 后 ， 用 完全 相同 的 条 件 再 次 编译 时 ， 由 于 完全 不 需要 执行 实际 的 编译 操作 ， 只 需要 取出 缓存 
的 内 容 就 可 以 完成 处 理 ， 因 此 编译 速度 快 得 惊人 。 






































distcc 的 测试 中 只 用 了 一 台 主 机 ， 在 make -j2 的 情况 下 ， 由 于 ssh 的 开销 较 大 ， 因 此 和 本 地 
执行 相 比 性 能 改善 不 大 ， 但 如 果 设置 更 多 的 进程 数量 ， 执 行 时 间 就 可 以 大 大 缩短 。 








依 小 结 
阿 姆 达尔 定律 指出 ,并行 性 是 存在 极限 的 ， 因 此 只 徘 多 核 无 法 解决 所 有 的 问题 。 但 是 大 家 
应 该 能 够 看 出 ， 只 要 配合 适当 的 编程 搁 巧 ， 还 是 能 够 比较 容易 地 获得 很 好 的 效果 。 可 以 说 ,多 
核 在 将 来 还 是 颇 有 前 途 的 。 
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在 需要 处 理 大 量 连接 的 服务 器 上 ， 如 果 使 用 线程 的 话 ， 内 存 负荷 和 线程 切换 的 开销 都 会 变 
得 非常 巨大 。 因 此 , 监听 “有 输入 进来 ”等 事件 并 进行 应 对 处 理 , 采 用 单线 程 来 实现 会 更 加 高 效 。 
像 这 样 通过 “事件 及 应 对 处 理 ”的 方式 来 工作 的 软件 架构 ， 被 称 为 事件 驱动 模型 (event driven 


model )。 




















这 种 模型 虽然 可 以 提高 效率 ， 但 也 有 缺点 。 在 采用 单线 程 来 进行 处 理 的 情况 下 ， 当 事件 处 
理 过 程 中 由 于 某 些 原因 需要 进行 等 待 时， 程序 整体 就 会 停止 运行 。 这 也 就 意味 着 即便 产生 了 新 
的 事件 ， 也 无 法 进行 应 对 了 。 


























像 这 样 处 理发 生 停 沛 的 情况 被 称 为 阻塞 。 阻 塞 多 半 会 在 等 待 输入 输出 的 时 候 发 生 。 对 于 事 
件 驱 动 型 程序 来 说 ， 阻 塞 是 应 当 极力 避免 的 。 


尺 何 为 非 阻塞 /O 





由 于 大 部 分 和 输入 输出 操作 都 免不了 会 遇 到 阻塞 ， 因 此 在 输入 输出 时 需要 尤其 注意 。 输 入 输 
出 操作 速度 并 不 快 ， 因 此 需要 进行 缓冲 。 当 数据 到 达 绥 冲 区 时 ， 读 取 操作 只 需要 从 缓冲 区 中 将 
数据 复制 出 来 就 可 以 了 。 

在 缓冲 机 制 中 ， 有 两 种 情况 会 产生 等 待 。 一 种 是 当 缓 冲 区 为 空 时 ， 需 要 等 待 数据 到 达 绥 冲 
区 ( 读 取 时 ); 男 一 种 是 在 缓冲 区 已 满 时 ,需要 等 待 缓冲 区 腾 出 空间 ( 写 入 时 )( 图 1 )。 这 两 种 “等 
待 ”就 相当 于 程序 停止 工作 的 “阻塞 ”状态 。 














尤其 是 在 输入 ( 读 取 ) 时 ,如 果 在 数据 到 达 前 试图 执行 读 取 操作 , 就 会 一 直 等 待 数据 的 到 达 ， 
这 样 肯定 会 发 生 阻塞 。 

相 比 之 下 ， 输 出 时 由 于 磁盘 写 和 人、 网 络 传输 等 因素 ， 也 有 可 能 会 发 生 阻 塞 ， 但 发 生 的 概率 
并 不 高 。 而 且 即 便 发 生 了 阻塞 ， 等 待 时 间 也 相对 较 短 ， 因 此 不 必 过 于 在 意 。 

















要 实现 非 阻塞 的 读 取 操 作 ， 有 下 列 几 种 方法 。 
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口 使 用 read(2) 的 方法 

口 使 用 read(2)+select 的 方法 

口 使 用 read(2)+O_NONBLOCK 标志 的 方法 
口 使 用 aio_read 的 方法 


























口 使 用 信号 驱动 IO 的 方法 
这 些 方法 各 有 各 的 优 缺 点 ， 我 们 来 逐一 讲解 一 下 。 
站 当 线程 读 取 数据 时 ， 组 冲 区 为 空 的 情况 
爱 让 区 
和 数据 磁盘 等 


等 待 数据 到 达 








@) 当 线程 写 入 数据 时 ， 缓 冲 区 已 满 的 情况 

















缓冲 区 








数据 数据 数据 数据 磁盘 等 








wu 等 待 缓冲 区 可 写 入 








网 





省 


1 输入 输出 中 发 生 阻塞 的 原 























信使 用 read(2) 的 方法 





首先 ， 我 们 先 来 确定 示例 程序 的 结构 。 在 这 里 ， int 
我 们 只 写 出 了 程序 中 实际 负责 读 取 处 理 的 回调 部 分 。 1 


























我 们 将 回调 函数 命名 为 callback， 它 的 参数 用 于 /* 返回 值 成 功 为 ] */ 
读 取 的 文件 描述 符 (int 但 ) 和 注册 回调 函数 时 指定 公允 二 间 六/ 
的 指针 (void *data ) ( 图 2 )。 关 于 输出 ， 我 们 再 设置 } 
一 个 output 函数 。 void 


ovt pu ene deonst enar .pn 
在 实际 的 程序 中 ， 需 要 在 事件 循环 内 使 用 选择 len) 
可 读 写 文件 描述 符 的 “select 系统 调用 ”和 “epoll” 等 ， ee 
对 文件 描述 符 进行 监视 ， 并 对 数据 到 达 的 文件 描述 符 ” “1 
调用 相应 的 回调 函数 。 图 2 ”回调 函数 与 输出 函数 
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我 们 先 来 看 看 只 使 用 read 系统 调用 的 
实现 方法 。 对 了 ， 所 谓 read(2)， 是 UNIX 中 
广泛 使 用 的 一 种 记 法 代表“ 手册 显示 命令 
man 的 第 2 节 中 的 read” 的 意思 。 由 于 第 2 
节 是 系统 调用 ， 因 此 可 以 认为 read(2) 相当 于 
“read 系统 调用 ”的 缩写 。 




















只 使 用 read(2) 构建 的 回调 函数 如 图 3 
所 示 。 


程序 非常 简单 。 当 这 个 回调 函数 被 调用 
时 ， 显 然 输入 数据 已 经 到 达 了 ， 因 此 只 要 调 
用 read 系统 调用 ， 将 积累 在 输入 缓冲 区 中 的 
数据 复制 到 buf 中 即 可 。 当 输入 数据 到 达 时 ， 
read 系统 调用 不 会 发 生 阻 塞 。 





read 系统 调用 的 功能 是 : 中 失败 时 返回 
负数 ; @ 到 达 EOF 时 返回 0; 外 读 取 成 功 时 
返回 读 取 的 数据 长 度 。 只 要 明白 了 这 些 ， 就 
很 容易 理解 图 2 中 程序 的 行为 了 吧 。, 小 菜 一 碟 。 
不 过 ， 这 样 简单 的 实现 版 本 中 必然 隐 


藏 着 问题 ， 你 发 现 了 吗 ? 这 个 回调 函数 正 
确 工 作 的 前 提 是 ， 输 入 数据 的 长 度 要 小 于 


void 

callback(int fd, void *data) 
chianme Due IS 
Wes 


n= read(fd, buf, BUFSIZ); 

nne < 0 et /A 
if (n == 0) return 0; /x* EOF */ 
ouwpuw dD /* 写 入 */ 
etoumnl: /* 成 功 */ 








图 3 用 read(2) 实现 的 输入 操作 ( ver.1 ) 








void 
callback(int fd, void *data) 
让 

cham Dokl BS 

Te ne 


FOr (B88) A Ys 
me readiCh de bute SI 
nne< 0 et /A 
if (n == 0) return 0; /x* EOF */ 


oubpuGfd un /* 写 入 
*/ 
if (n 《< BUFSIZ) break; /* 读 取 完毕 ,退出 
*/ 
} 
return 1; /大 成 功 */ 








图 4 用 read(2) 实现 的 输入 操作 ( ver.2 ) 








BUFSIZCC 话 言 标准 IO 库 中 定义 的 一 个 常量 ， 
值 貌 似 是 8192 )。 














但 是 ,在 通信 中 所 使 用 的 数据 长 度 一 般 都 不 是 固定 的 ， 某 些 情况 下 需要 读 取 的 数据 长 度 可 
能 会 超过 BUFSIZ。 于 是 ， 能 够 支持 读 取 长 度 超 过 BUFSIZ 数据 的 版 本 如 图 4 所 示 。 








在 版 本 2 中 ， 当 读 取 到 的 数据 长 度 小 于 BUFSIZ 时 ， 也 就 是 当 输 入 缓冲 区 中 的 数据 已 经 全 
部 读 取 出 来 的 时 候 ， 程 序 结束 。 当 读 取 到 的 数据 长 度 等 于 BUFSIZ 时 ， 则 表示 缓冲 区 中 还 可 能 
有 残留 的 数据 ， 因 而 可 通过 反复 循环 ， 直 到 读 取 完毕 为 止 。 


问题 都 解决 了 吗 ? 还 没有 ， 事 情 可 没 那么 简单 。 当 输入 的 数据 长 度 正 好 等 于 BUFSIZ 时 ， 
这 个 程序 会 发 生 阻 塞 。 我 们 说 过 ， 避 免 阻 塞 对 于 回调 函数 来 说 是 非常 重要 的 ， 因 此 这 个 程序 还 











无 法 实际 使 用 ， 我 们 还 需要 进行 一 些 改进 。 
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仿 边 沿 触发 与 电 平 触发 


好 了 ， 接 下 来 我 要 宣布 一 件 重 要 的 事 。 我 们 刚才 说 图 3 的 程序 只 能 支持 读 取 长 度 小 于 
BUFSIZ 的 数据 ,但 其 实 只 要 将 读 取 的 数据 直接 输出 , 它 还 是 可 以 正常 工作 的 ,而 且 不 会 发 生 阻 塞 。 
不 过 ， 要 实现 这 一 点 ， 负 责 事件 监视 的 部 分 需要 满足 一 定 的 条 件 。 


在 事件 监视 中 ， 对 事件 的 检 
测 方法 有 两 种 ， 即 边沿 触发 (edge 状态 


Tu 
















































































trigger 1) 和 电 平 触发 (level trigger )。 

这 两 个 词 原本 是 用 在 机 械 控制 领域 时 间 | 
中 的 ,边沿 触发 是 指 只 在 状态 变化 
的 瞬间 发 出 通知 ， 而 电 平 触发 是 指 边沿 触发 O x x 
在 状态 发 生变 化 的 整个 过 程 中 都 持 。 电 平 触发 O oO 
续 发 出 通知 (图 5 )。 图 5 边沿 触发 与 电 平 触发 

select 系统 调用 属于 电 平 触发 ，epoll 默认 也 是 电 平 触 发 ， 但 epoll 也 可 以 通过 显 式 设置 来 实 


现 边沿 触发 。 























具体 来 说 ， 是 在 epoll event 结构 体 的 events 字段 通过 EPOLLET 标志 来 进行 设置 的 。 





要 让 图 3 的 程序 在 不 阻塞 的 状态 下 工作 ， 事 件 监 视 就 必须 采用 电 平 触发 的 方式 。 也 就 是 说 ， 
在 调用 回调 函数 执行 输入 操作 之 后 ， 如 果 读 取 缓 冲 区 中 还 有 残留 的 数据 ， 在 电 平 触发 的 方式 下 ， 
就 会 再 次 调用 回调 函数 来 进行 读 取 操 作 。 











那么 ， 采 用 电 平 触发 就 足够 了 吗 ? 边沿 触发 的 存在 还 有 什么 意义 呢 ? 由 于 边沿 触发 只 在 数 
据 到 达 的 瞬间 产生 事件 ， 因 此 总 体 来 看 事件 发 生 的 次 数 会 比较 少 ， 这 也 就 意味 着 回调 函数 的 启 
动 次 数 也 会 比较 少 ， 可 以 提高 效率 。 


仿 使 用 read(2) + select 的 方法 





刚才 已 经 讲 过 ,图 3 版 本 的 程序 ， 会 将 输入 缓冲 区 中 积累 的 数据 全 部 读 取 出 来 ， 而 当 输入 
缓冲 区 为 空 时 ， 调 用 read 系统 调用 就 会 发 生 阻 塞 。 为 了 避免 这 个 问题 ， 需 要 在 调用 read 之 前 检 
查 输入 缓冲 区 是 否 为 空 。 








下 面 ， 我 们 来 创建 一 个 checking read 函数 。 它 先 调用 read 系统 调用 ， 然 后 通过 select 系统 
调用 检查 输入 缓冲 区 中 是 否 有 数据 ( 图 6 )。 为 了 判断 是 否 有 剩余 数据 ，checking read 比 read 增 
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加 了 一 个 参数 。 调 用 checking_ read 来 代替 read， 如 果 参 数 cont 的 值 为 真 ， 就 表示 输入 缓冲 区 中 
还 有 剩余 的 数据 。 





用 这 种 方法 ， 在 边沿 触发 的 方式 下 也 可 以 正常 工作 。 边沿 触发 的 好 处 就 是 能 够 减少 事件 发 
生 的 次 数 , 但 相对 地 ,select 系统 调用 的 调用 次 数 却 增加 了 。 此 外 , 在 每 次 调用 read 系统 调用 时 ， 
还 要 问 一 下 “还 有 剩 下 的 数据 吗 ”， 总 让 人 感觉 怪 怪 的 。 














#include <sys/time.h> 
#include <sys/types.h> 


int 
checking read(int fd, char *buf, int len, int *cont) 
( 
men 
*cont = 0; /* 初始 化 */ 
n= read(fd，buf，1len); /x* 调用 read(2) */ 
n> 0 /* 读 取 成 功 */ 
hasiet fds 
Struct timeval tv; 
nr 
FD_ZERO(&fds); /* 准备 调用 select(2) */ 
EDESEN(GEAN fads 
tv.tv_sec = 0; /* 不 会 阻塞 */ 


tv.tv_usec = 0; 
c= select(fd+1, &fds, NULL, NULL, &tv); 





i Ge = /* 返回 值 为 1= 缓 冲 区 不 为 空 */ 
Comnte /* 设置 继续 标志 */ 
} 
} 
Pe umm 
} 
void 
callback(int fd, void *data) 
{ 


Siar urieUFsSrzls 
Te Ti oe 


OW (6:0: 
n= checking_ read(fd, buf, BUFSIZ, &cont); 
nen < returne > 全 天 CE 
Tn Oe EO. 





oe on ol oi [ns /EE NE 
fereont, econ ue /* 读 取 完毕 ,退出 */ 
} 
return li /* 成 功 */ 
} 
图 6 用 read ( 2 ) 实现 的 输入 操作 ( ver.3) 
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贸 使 用 read+O_NONBLOCK 标志 





毕竟 read 系统 调用 可 以 直接 接触 输入 缓冲 区 ， 那 么 理所当然 地 ， 在 读 取 数据 之 后 它 应 该 知 
道 缓冲 区 中 是 否 还 有 剩余 的 内 容 。 那 么 ， 能 不 能 实现 “调用 read， 当 会 发 生 阻塞 时 通知 我 一 下 ” 
这 样 的 功能 呢 ? 























当然 可 以 。 只 要 在 文件 描述 符 中 设置 一 个 ONONBLOCK 标 志 , 当 输入 输出 中 要 发 生 阻 寒 时 ， 
系统 调用 就 会 产生 一 个 “继续 执行 的 话 会 发 生 阻塞 ”的 错误 消息 提示 ， 这 个 功能 在 UNIX 系 操 
作 系 统 中 是 具备 的 。 使 用 O_NONBLOCK 的 版 本 如 图 7 所 示 。 











#include <fcntl.h> 
#include <errno.h> 


/* (a) 初始 化 程序 的 菜 个 地 方 */ 
inf f]; 


T= nel he Es: 
em Gf an nseELE lINONBNOCKE 
/* 到 此 为 止 */ 





void 
callback(int fd, void *data) 
{ 

Chianme uh oS: 

nen 


To BB /ee 
mrnead(Gfa or eS): 





ma I < OY 
if (errno == EAGAIN) { /* EAGAIN= 缓 冲 区 为 空 */ 
ert: /* 读 取 操作 结 / 
} 
return -1; /x* 失败 大 / 

} 

ER 三 二 让 en 人 Wz EQFEX/ 

ovepu (eho ur J 

} 
} 








图 7 用 read(2) 实现 的 输入 操作 ( ver.4 ) 














怎么 样 ? 由 于 这 次 我 们 能 够 从 本 来 拥有 信息 的 read 直接 收 到 通知 ， 整 体 上 看 比 图 6 的 版 本 
要 简洁 了 许多 。 





这 个 功能 仅 在 对 文件 描述 符 设置 了 OO _ NONBLOCK 标志 时 才 会 有 效 ， 因 此 在 对 文件 描述 符 
进行 初始 化 操作 时 ， 不 要 忘记 使 用 图 7(a) 中 的 代码 对 标志 进行 设置 。 
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这 种 方法 效率 高 、 代 码 简洁 ， 可 以 说 非常 优秀 ， 但 有 一 点 需要 注意 ， 那 就 是 大 多 数 输入 输 
出 程序 在 编写 时 都 没有 考虑 到 文件 描述 符 设置 了 O_NONBLOCK 标志 的 情况 。 








当 设 置 了 O_NONBLOCK 标志 的 文件 描述 符 有 可 能 发 生 阻 塞 时 ， 会 返回 一 个 错误 ， 而 不 会 
发 后 实质 上 的 阻塞。 一 般 的 输入 输出 程序 都 没有 预想 到 这 种 行为 ， 因 此 发 生 这 样 的 错误 就 会 被 
认为 是 读 取 失败 ， 从 而 引发 输入 输出 操作 的 整体 失败 。 





使 用 O_NONBLOCK 标志 时 ,一 定 要 注意 文件 描述 符 的 使 用 。O_NONBLOCK 标志 会 继承 
给 子 进 程 ， 因 此 在 使 用 fork 的 时 候 要 尤其 注意 。 以 前 曾经 遇 到 过 这 样 的 bug: 中 对 标准 输入 设 
置 了 O_NONBLOCK; @) 用 system 启动 命令 ; @) 命 令 不 支持 O_NONBLOCK ， 导 致 诡异 的 错误 。 
那 时 ， 由 于 忘记 了 子 进 程 会 继承 O NONBLOCK 标志 这 件 事 ， 结 果 花 了 大 量 的 时 间 才 找到 错误 
的 原因 。 
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刚才 我 们 对 C 语言 中 的 非 阻塞 IO 进行 了 介绍 ,下 面 我 们 来 简单 介绍 一 下 Ruby 的 非 阻塞 IO。 


Ruby 从 1.8.7 版 本 开始 提供 这 里 介绍 过 的 两 个 实现 非 阻塞 IO 的 方法 ， 即 read_partial 和 


read nonblock。 


read_partial 方法 可 以 将 当前 输入 缓冲 区 中 的 数据 全 部 读 取 出 来 。read_partial 可 以 指定 读 取 
数据 的 最 大 长 度 ， 其 使 用 方法 是 : 








str = io.read_partial (1024) 


read_partial 基本 上 不 会 发 生 阻 寒 , 但 告 输 入 缓冲 区 为 空 且 没有 读 取 到 EOF 时 会 发 生 阻 塞 。 
也 就 是 说 ， 仅 在 一 开始 原本 就 没有 数据 到 达 的 情况 下 会 发 生 阻 塞 。 














换 句 话说 ， 只 要 是 通过 事件 所 触发 的 回调 中 ， 使 用 read partial 是 肯定 不 会 发 生 阻塞 的 ， 
此 read_partial 在 实现 上 相当 于 read+select 的 组 合 。 


| 


将 图 6 的 程序 改 用 Ruby 进行 的 实现 如 图 8 。 jos camipacktio data) 

所 示 。 不 过 ， 和 图 6 的 程序 不 同 的 是 ， 当 数据 大 input ~ io.read partial(4096) 
于 指定 的 最 大 长 度 时 不 会 循环 读 取 。 在 读 取 的 。 on9 ”Pu 
数据 长 度 等 于 最 大 长 度 时 ， 如 果 循 环 调 用 read ”加 8 使 用 read_partial 的 示例 
partial 就 有 可 能 会 发 生 阻 塞 。 这 真是 个 难题 。 
































相对 地 ，read nonblock 则 相当 于 read+O_ NONBLOCK 的 组 合 。read nonblock 会 对 io 设 
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置 O NONBLOCK 并 调用 read 系统 调用 。read 











def callback(io, data) 





nonblock 在 可 能 要 发 生 阻 塞 时 ， 会 返回 IO; : i do 
x HH @gin 
WaitReadable 模块 所 包含 的 异常 。 input = io.read_nonblock(4096) 
output(io, input) 
read_nonblock 的 参数 和 read partial 是 相同 rescue 10::WaitReadable 
| 0 # 缓冲 区 为 空 了 ,结束 
的 。 我 们 将 图 7 的 程序 用 read_nonblock 改写 成 return 
Ruby 程序 (图 9)。 和 C 语 言 的 版 本 相 比 ,Ruby es"4 


版 显得 更 简洁 ， 而 且 read nonblock 会 自动 设置 end 
O_NONBLOCK 标志 ， 因 此 不 需要 进行 特别 的 初 ”图 9 使 用 read_nonblock 的 例子 
始 化 操作 。 























仿 使 用 aio_read 的 方法 





















































POSIX "提供 了 用 于 异步 1/O 的 “aio XXXX” 表 1 异步 /O 函 数 
函数 集 ( 表 1)。 例如 ，aio_read 用 于 以 异步 方式 名 称 功 能 
实现 和 read 系统 调用 相同 的 功能 。 这 里 的 aio 就 i as 
是 异步 IO (Asynchronous IO ) 的 缩写 。 人 2 

aio fsync 异步 fsync 

aio 函数 集 的 功能 ， 是 将 通常 情况 下 会 发 生 阻 人 人 
i 六 。 这 光一 1 大 返 
塞 的 系统 调用 ( read .write \fsync ) 在 后 台 进 行 执行 。 Te ee ee 下 

三 2 alo_cance 十 习 1 
这 些 函 数 只 负责 发 出 执行 系统 调用 的 请 求 ， 因 此 一 一 
aio_suspend 请 求 等 待 
肯定 不 会 发 生 阻 塞 。 


运用 aio_read 的 最 简单 的 示例 程序 如 图 10 所 示 ， 它 的 功能 非常 简单 : 


口 打开 文件 

口 用 aio_ read 发 出 读 取 请 求 

口 用 aio_suspend 等 待 执行 结 

口 或 者 用 aio_error 检查 执行 结束 
口 用 aio return 获取 返回 值 



































下 面 我 们 来 看 看 程序 的 具体 内 容 。 























四 POSIX (Portable Operating System Interface X， 可 移植 操作 系统 接口 ) 是 由 电气 电子 工程 师 学 会 (IEEE ) 制定 的 
一 套 在 各 种 UNIX 操作 系统 上 API 的 相互 关联 标准 ， 正 式 名 称 为 IEEE 1003。 
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1 /* 异步 I/0 所 需 头 文件 */ 

2 #include 《aio.h> 

习 

4 /* 其 他 头 文 件 */ 

5 #include 《unistd.h> 

6 #include <string.h> 

J #include <stdio.h> 

8 #include <errno.h> 

9 

10 Te 

ul main() 

2 

3 SBE UC anoco bs 

14 constestruct anocbeae bs le 

四 chor pokeB Sl 

16 me en 

区 

8 /* 准备 文件 描述 符 */ 

9 fde= openmE /tmp/iasc OuRDONINDS: 

20 

21 /* 初始 化 控制 块 结构 体 */ 

22 memset(&cb, 0, sizeof(struct aiocb)); /x* 清空 */ 
23 cbanlon fldes fd Vx fl 
24 cpanomb ue Du /* 设置 buf */ 
25 cb.aio nbytes = BUFSIZ; /* 设置 buf 长 度 */ 
26 

2 n= aio_ read(&cb); Ws Dia ws 

28 if (n < 0) perror("aio_read"); /* 请 求 失败 检查 */ 
29 

30 2 

河和 /* 使 用 aio_suspend 检 查 请 求 完 成 */ 

多 cblist[0] = &cb; 

33 n= aio suspend(cblist, 1, NULE); 

34 #else 1 

35 /* 使 用 aio_error 也 能 检查 执行 完成 情况 */ 

36 /* 未 完成 时 返回 EINPROGRESS */ 

3 while (aio_error(&cb) == EINPROGRESS) 

38 [Dien ec yA se 

39 #endif 

40 

41 /* 执行 完成 ,取出 系统 调用 的 返回 值 */ 

42 n= aio return(&cb); 

43 mene< 0 enmmom Ge omniet unmnes 

44 

45 /* 读 取 的 数据 保存 在 aio_buf 中 */ 

46 prumefi desd Nn nebsanlounby eseb anlonnby te eb lo 
47 Beyvnnnos 

48 由 





图 10 异步 |/O 示例 


第 19 行将 文件 open 并 准备 文件 描述 符 。 不 过 ， 这 只 是 一 个 例子 ， 并 没有 什么 意义 ， 因 为 
实际 的 异步 IO 往往 是 以 套 接 字 为 对 象 的 。 根 据 我 查 到 的 资料 来 看 ， 像 HP-UX 等 系统 中 ，aio_ 
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read 甚至 是 只 支持 套 接 字 的 。 


从 第 22 行 开 始 对 作为 aio_read 等 的 参数 使 用 的 控制 块 (aiocb ) 结构 体 进 行 初始 化 操作 。 
read 系统 调用 有 3 个 参数 : 文件 描述 符 、 读 取 缓 冲 区 、 缓 冲 区 长 度 ,， 但 aio_read 则 是 将 上 述 这 
些 参数 分 别 通过 aiocb 结构 体 的 aio_fldes、aio buf、aio_nbytes 这 3 个 成 员 来 进行 设置 。aiocb 
结构 体 中 还 有 其 他 一 些 成 员 ， 保 险 起 见 我 们 用 memset 将 它们 都 初始 化 为 0( 第 22 行 )。 











随后 ， 我 们 使 用 aiocb 结构 体 ， 通 过 aio_read 函数 预约 执行 read 系统 调用 (第 27 行 )。aio_ 
read 只 是 提交 一 个 请 求 ， 而 不 会 等 待 读 取 过 程 的 结束 。 对 实际 读 取 到 的 数据 所 做 的 处 理 ， 是 在 
读 取 结束 之 后 才 进 行 的 。 





























在 这 里 我 们 使 用 aio_suspend 执行 挂 起 ,直到 所 提交 的 任意 一 个 请 求 执行 完毕 位 置 (第 33 行 )。 
不 过 话说 回来 ， 我 们 也 就 提交 了 一 个 请 求 而 已 。 





对 请 求 执行 完毕 的 检查 也 可 以 使 用 aio_error 来 实现 。 使 用 提交 请 求 的 aiocb 结构 体 来 调用 
aio_error 函数 ， 如 果 请 求 未 完成 则 返回 EINPROGRESS ， 成 功 完成 则 返回 0， 发 生 其 他 错误 则 返 
回 相 应 的 errno 值 。 在 这 里 ， 有 一 段 对 预 处 理 器 标明 不 执行 的 代码 (34 ~ 39 行 )， 这 段 代 码 使 
用 aio_error 用 循环 来 检查 请 求 是 否 完 成 。 这 是 一 个 忙 循环 ( busy loop ), 会 造成 无 谓 的 CPU 消耗 ， 
因此 在 实际 的 代码 中 是 不 应 该 使 用 的 。 




















读 取 请 求 完成 之 后 ， 就 该 对 读 取 到 的 数据 进行 处 理 了 (42 ~ 46 行 )。read 系统 调用 的 返回 
值 可 以 通过 aio_return 函数 来 获取 。 此 外 ， 读 取 到 的 数据 会 被 保存 到 aiocb 结构 体 的 aio_buf 成 
员 所 指向 的 数组 中 。 











10 的 程序 中 是 使 用 aio_suspend 和 aio_error 来 检查 请 求 是 否 完成 的 ， 其 实 异 步 IO 也 提 
供 了 在 读 取 完成 时 调用 回调 函数 的 功能 。 在 回调 函数 的 调用 上 ,有 信号 和 线程 两 种 方式 ,下 面 (为 
了 简单 起 见 ) 我 们 来 介绍 使 用 线程 进行 回调 的 方式 (图 11 )。 











11 的 程序 和 图 10 的 程序 基本 上 是 相同 的 , 不 同 点 在 于 ， 回 调 函 数 的 指定 (48 ~ 50 行 )、 
回调 也 数 (10 ~ 31 行 ) 以 及 叫 处 理 转 交 给 回调 函数 并 停止 线程 的 select (第 56 行 )。 








/* 异步 I/0 所 需 头 文件 */ 
#include “aio.h> 


/** 其 他 头 文 件 */ 

#include “unistd.h> 
#include <string.h> 
#include 《stdio.h> 
#include <errno.h> 


到 11 ”异步 |/O 示例 ( 回调 ) 


CONORODNDFC 
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9 
10 stabiea vo 
Wl read_done(sigval t sigval) 
2 { 
3 Scere lo eo 
4 Mae ns 
5 
16 eo = (Serue oesSitv) Si1val) /mers 
7 
18 /* 检查 请 求 的 错误 状态 */ 
9 if (aio_error(cb) == 0) { 
20 /* 获取 已 完成 的 系统 调用 的 返回 值 */ 
21 n= aio_return(cb); 
22 wen < 0 permonrG anomet un 
23 
24 /* 读 取 到 的 数据 存放 在 aio_buf 中 */ 
25 Discdexd AnXE Sn cb Solomnbyteseb Sanoanby eseb > onbuns 
26 
27 /* 示例 到 此 结束 */ 
28 exit(0); 
29 } 
280 return; 
3g } 
32 
33 Wn 
34 main() 
8B { 
86 streuectnanoeb eb 
3 clhran pore BS el 
38 nC en 
39 
40 /* 准备 文件 描述 符 */ 
41 Fade=eopen( /em ac 从 加 RD 从 二 
42 
43 /* 初始 化 控制 块 结构 体 */ 
44 memset(&cb, 0, sizeof(struct aiocb)); /* 清空 */ 
45 cb.aio_ fildes = fd; Vx fd x/ 
46 cb.aio_buf = buf; /* 设置 buf */ 
47 cb.aio_nbytes = BUFSIZ; /* 设置 buf 长 度 */ 
48 cb.aio_sigevent .sigev_notify = SIGEV_THREAD ; 
49 cb.aio_sigevent .sigev_notify_function = read_done; 
50 cb.aio_ sigevent.sigev value.sival_ptr = &cb; 
5 
5 n= aio_read(&cb); VR 
58 if (n < 0) perror("aio_read") ; /* 请 求 失败 检查 */ 
54 
55 /* 停止 线程 ,处 理 转交 给 回调 函数 */ 
56 Sales EE EE EE Us 
5 return 0; 
58 由 
图 11 异步 VO 示例 ( 续 ) 
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/* 异步 I/0 所 需 头 文件 */ 
#include “aio.h> 


/大 其 他 头 文 件 */ 
#include <stdlib.h> 
#include <stdio.h> 
#include <string.h> 
#include <sys/socket.h> 
#include <netinet/in.h> 


static void 
read done(sigval t sigval) 


{ 


Senuetaiocbewelb 
nn 


cby= st Uetoe br sas Val 


if (aio_error(cb) == 0) { 


} 


/* 获取 完成 的 系统 调用 的 返回 值 */ 

n= aio_return(cb); 

if (n == 0) { /EO 
printf("client %d gone\n", cb->aio fildes); 
aio_cancel(cb->aio_fildes，cb); /* 取消 提交 的 请 求 */ 
close(cb->aio_fildes); /* 关闭 fd */ 
free(cb ) ; /* 释放 cb 结构 体 */ 
return; 

由 

pnmen elvent dn eb >anoat lidesmm 

/* 直接 写 回 */ 

/* 读 取 到 的 数据 存放 在 aio_buf 中 */ 

/* 严格 来 说 Write 也 可 能 阻塞 ,但 这 里 我 们 先 忽 略 这 一 点 */ 

write(cb->aio_fildes, (void*)cb->aio_buf, n); 

aio_read(cb); 


else { /* 错误 */ 


} 


perror("aio_return"); 
esni 


return; 


bh 


Stealbnem ond 
register_ read(int fd) 


{ 


SEUe ta anoebe el 
char *buf; 


pombe rent elsened me hd: 
cbr malloees eo es tue Gooioe bs 
bute= melloedB es 





区 























12 ”使 用 aio_read 的 echo 服务 器 ( 节选 ) 
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/* 初始 化 控制 块 结构 体 


*/ 


memset(cb, 0, sizeof(struct aiocb)); /x* 清空 */ 
cb->aio_ fildes = fd; /* 设置 fd */ 


cb->aio_buf = buf; 


/* 设置 buf */ 


cb->aio_nbytes = BUFSIZ; /* 设置 buf 长 度 */ 
cb->aio_sigevent.sigev notify = SIGEV_THREAD; 
cb->aio_sigevent .sigev_notify_function = read_done; 
cb->aio_sigevent.sigev value.sival_ptr = cb; 


/* 提交 请 求 */ 
aio_read(cb); 


} 


int 
main() 


swr uctsoelkaddrain 


addnm: 


int s = socket(PF_INET, SOCK STREAM, 0); 


addr.sin_family = 


AF_INET ; 


addr.sin addr.s addr = INADDR_ANY ; 
addr.sin _ port = htons(9989 ) ; 
if (bind(s, (struct sockaddr*)&addr, sizeof(addr)) < 0) { 


enon ln 
exit(1); 

} 

MikskemnlGse eo 


Rom (Gl 


/* 接受 来 自 客户 端 套 接 字 的 连接 */ 


in ee = aceeptess 


NU 


ex 0 eoneim ue 


/* 开始 监听 客户 端 套 接 字 */ 
register_read(c); 














页 




















12 使 用 aio_read 的 echo 服务 器 ( 续 ) 





由 于 这 里 我 们 只 需要 对 回调 函 








数 的 调用 进行 一 次 等 待 ， 因 此 在 初始 化 完毕 后 用 select 进行 








等 竺 ;在 回调 函数 中 则 使 用 exite 实际 的 事件 驱动 服务 顺 程 序 中 ， 主 程序 应 该 是 “接受 客户 诊 


连接 并 注册 回调 函数 ” 














read 再 次 提交 read 请 求 ， 用 于 再 次 读 取 数据 。 














个 线程 来 实现 异步 IO。 








如 果 用 SIGEV_THREAD 设置 回调 函数 并 调用 aio_read， 从 系统 内 部 来 看 ， 实 际 上 是 月 








也 就 是 说 ， 回 调 函 数 是 在 独立 于 主线 程 的 另 一 个 单独 的 线程 中 执行 





因此 , 一 旦 使 用 了 SIGEV_THREAD ， 在 回调 函数 中 就 不 能 调用 非 线程 安全 的 函数 。 
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这 样 一 个 循环 。 此 外 ， 在 回调 函数 的 最 后 也 不 应 该 用 exit， 而 是 通过 aio_ 


日 多 
的 。 





6.3 非 阻塞 |/O 





只 要 是 会 修改 全 局 状态 的 函数 ， 都 是 非 线程 安全 的 。POSIX 标准 库 函 数 中 也 有 很 多 是 非 线 
程 安全 的 。 如 果 在 回调 函数 中 直接 或 间接 地 调用 了 这 些 函 数 ， 就 有 可 能 引发 意 想 不 到 的 问题 。 

















SIGEV_THREAD 是 用 线程 来 实现 回调 的 ,但 并 不 是 所 有 的 输入 处 理 都 会 使 用 独立 的 线程 ， 
因此 不 必 担 心 线程 数量 会 出 现 爆发 性 地 增长 。 


最 后 ， 为 了 让 大 家 对 如 何 用 异步 VO 来 编写 事件 驱动 型 程序 有 一 个 直观 的 印象 ， 在 图 12 中 
展示 了 一 个 使 用 了 aio_read 等 手段 实现 的 echo 服务 器 的 代码 节选 。 通 过 上 面 的 讲解 ， 大 家 是 否 
对 不 使 用 libev 等 手段 的 情况 下 ， 如 何 实现 事件 驱动 编程 有 了 一 些 了 解 呢 ? 











Linux 中 也 提供 了 io_getevents 等 其 他 的 异步 IO 函数 ， 这 些 函 数 的 性 能 应 该 说 更 好 一 些 。 
不 过 ， 它 们 都 是 Linux 专用 的 ， 而 且 其 事件 响应 只 能 支持 通常 文件 ， 使 用 起 来 制约 比较 大 ， 因 
此 本 书 中 的 介绍 ， 还 是 以 POSIX 中 定义 的 ， 在 各 种 平台 上 都 能 够 使 用 的 aio_read 为 主 。 
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Zp SERIES 
de.j 
node.js 


BF 


SS 
SS 


1990 年 ,我 大 学 毕业 后 进入 软件 开发 公司 工作 ,到 现在 已 经 有 20 年 了 ,不 由 得 感叹 日 月 如 梭 。 
在 这 20 年 间 ， 我 从 事 软件 开发 工作 的 感受 ， 就 是 无 论 是 软件 开发 还 是 其 他 工作 ， 最 重要 的 就 是 
提高 效率 。 工 作 就 像 一 座 大 山 一 样 压 在 你 面前 ， 不 解决 掉 它 你 就 没 饭 吃 。 然 而 ， 自 己 所 拥有 的 
能 力 和 时 间 都 是 有 限 的 ， 要 想 在 规定 期 限 内 解决 所 有 的 问题 非常 困难 。 














话说 回来 ， 在 这 20 年 的 工作 生涯 中 ,我 几乎 没有 开发 过 供 客户 直接 使 用 的 软件 ， 这 作为 程 
序 员 似乎 挺 奇 葛 的 。 不 过 ， 我 依然 是 一 名 程序 员 。 从 软件 开发 中 ,程序 员 能 够 学 到 很 多 丰富 人 
生 的 东西 。 我 从 软件 开发 中 学 会 了 如 何 提高 效率 ， 作 为 应 用 ， 总 结 出 了 下 面 几 个 方法 : 








口 减负 
口 拖延 
口 委派 


看 起 来 这 好 像 都 是 些 浑 水 摸 鱼 的 至 门牙 道 ， 其 实 这 些 方法 对 于 提高 工作 效率 是 非常 有 用 的 。 











冬 减 负 
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在 计算 机 的 历史 上 ， 提 高 处 理 速 度 的 最 有 效 手 段 ， 就 是 换 一 台新 的 电脑 。 计算 机 的 性 能 不 
断 提 升 ， 而 且 价 格 还 越 来 越 便宜 ， 仅 靠 更 新 硬件 就 能 够 获得 成 倍 的 性 能 提升 ， 这 并 不 稀奇 。 








不 过 很 遗憾 ， 摩 尔 定律 并 不 适用 于 人 类 ， 人 类 的 能 力 不 可 能 每 两 年 就 翻 一 倍 ， 从 工作 的 角度 
来 看 ， 上 面 的 办 法 是 行 不 通 的 。 然 而 ， 如 果 你 原 地 踏步 的 话 ， 早 晚会 被 更 年 轻 、 工 资 更 便宜 的 程 
序 员 取 代 ， 效 率先 不 说 ， 至 少 项 目的 成 本 降低 了 ， 不 过 对 于 你 来 说 这 可 不 是 什么 值得 高 兴 的 事 。 











说 点 正经 的 ， 在 软件 开发 中 ， 如 果 不 更 换 硬件 ， 还 可 以 用 以 下 方法 来 改善 软件 的 运行 速度 : 
口 采用 更 好 的 算法 

口 减少 无 谓 的 开销 
口 用 空间 来 换 时 间 
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如 果 将 这 些 方法 拿 到 人 类 的 工作 中 来 ,那么 “采用 更 好 的 算法 ”就 相当 于 思考 更 高 效 的 工 
作 方 式 ;“ 减 少 无 谓 的 开销 ” 则 相当 于 减少 低级 重复 劳动 ， 用 计算 机 来 实现 自动 化 。 











用 空间 来 换 时 间 ” 可 能 不 是 很 容易 理解 。 计 算 机 即便 进行 重复 劳动 也 不 会 有 任何 怨言 ， 但 
还 是 需要 人 类 来 进行 管理 。 如 果 能 够 将 计算 过 一 次 的 结果 保存 在 某 个 地 方 , 就 可 以 缩短 计算 时 间 。 





这 样 一 来 ， 所 需要 的 内 存 空间 增加 了 ,但 计算 时 间 则 可 以 得 到 缩短 。 在 人 类 的 工作 中 ， 
该 是 相当 于 将 复杂 的 步骤 和 判断 实现 并 总 结 成 文档 ， 从 而 提高 效率 的 方法 吧 。 


然而 ,在 有 限 的 条 件 下 ， 提 高 工作 效率 的 最 好 方法 就 是 减负 。 我 们 所 遇 到 的 大 部 分 工作 都 
可 以 分 为 三 种 ， 即 非得 完成 不 可 的 、 能 完成 更 好 但 并 不 是 必需 的 ， 以 及 干脆 不 做 为 好 的 。 有 趣 
的 是 ， 这 三 种 工作 之 间 的 区 别 并 非 像 外 人 所 想象 的 那样 简单 。 有 一 些 工作 虽然 看 起 来 绝对 是 必 
需 的 ， 但 仔细 想 想 的 话 就 会 发 现 也 未 必 。 

















人 类 工作 的 定义 比 起 计算 机 来 说 要 更 加 模棱两可 ， 像 这 样 伴随 不 确定 性 ， 由 惯性 思维 所 产 
生 的 不 必要 不 紧急 的 工作 ， 如 果 能 够 砍 掉 的 话 ， 就 能 够 大 幅度 提高 工作 效率 。 








匀 拖延 





减少 不 必要 不 紧急 的 工作 ， 就 能 够 更 快 地 完成 必要 的 工作 ， 提 高 效率 ， 关 于 这 一 点 臣 伯 大 
家 没有 什么 异议 。 不 过 ， 到 底 哪 项 工作 是 必要 的 ， 而 哪 项 工作 又 不 是 必要 的 ， 要 区 分 它们 可 比 
想象 中 困难 得 多 。 要 找 出 并 吻 除 不 必要 的 工作 ， 还 真 没 那 么 容易 。 














其 实 ， 要 做 出 明确 的 区 分 ， 还 是 有 诀 窃 的 ， 那 就 是 利用 人 类 心理 上 的 弱点 。 人 们 普遍 都 有 
只 看 眼前 而 忽略 大 局 的 毛病 ,因此 , 当 项 目 期 限 双 近 时 ,就 会 产生 “只 要 能 赶 上 工期 宁愿 砸 锅 卖 铁 ” 
这 样 的 念头 。 


即便 如 此 ， 佑 计 也 解决 不 了 问题 ， 还 不 如 将 计 就 计 ， 干 脆 拖 到 不 能 再 拖 为 止 ， 这样 一 来 ， 
工期 肯定 赶不上 了 ， es 剩 下 的 那些 就 砍 掉 吧 。 换 作 平时 ， 要 想 
砍 掉 一 些 工作 ， 总 会 有 一 些 抵触 的 理由 ， 如 “这 个 说 不 定 以 后 要 用 到 ”、“ 之 前 也 一 直 这 么 做 的 ” 
a ee ba 














不 过 ， 这 个 方法 的 副作用 还 是 很 危险 的 。 万 一 估算 错 了 时 间 ， 连 必要 的 工作 也 完成 不 了 ， 
那 可 就 惨 了 。 所 以 说 这 只 是 个 半 开 玩笑 (但 男 一 半 可 是 认真 的 ) 的 拖延 用 法 ,但 除 此 之 外 ， 还 
有 其 他 一 些 利用 拖延 的 方法 。 























例如 ， 每 个 任务 都 各 自 需 要 一 定 的 时 间 才 能 完成 ， 有 些 任务 只 要 5 分 钟 就 能 完成 ， 而 有 些 
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则 需要 几 个 月 。 如 果 能 够 实现 列 出 每 项 任务 的 优先 级 和 所 需 的 时 间 ， 就 可 以 利用 会 议 之 间 的 空 
档 等 碎片 时 间 ， 来 完成 一 些 较 小 的 工作 。 


这 种 思路 ， 和 CPU 中 的 乱 序 执行 如 出 一 笋 。 进 一 步 说 ， 对 于 一 项 任务 ， 还 可 以 按照 “非常 
紧急 必须 马上 完成 的 工作 ”、“ 只 要 不 忘记 ,什么 时 候 完成 都 可 以 的 工作 ”等 细 分 成 多 个 子 任务 。 

















这 样 ,按照 紧急 程度 从 高 到 低 来 完成 任务 的 话 , 就 可 以 进一步 提高 自己 的 工作 效率 。 在 这 里 ， 
和 “ 乱 序 执行 ”一 样 ， 需 要 注意 任务 之 间 的 相互 依赖 关系 。 当 相互 依赖 关系 很 强 时 ， 即 使 改变 
这 些 任务 的 顺序 ， 也 无 法 提高 效率 ， 这 一 点 无 论 在 现实 的 工作 中 还 是 CPU 中 都 是 相通 的 。 

















饼 委派 








大 多 数 人 都 无 法 同时 完成 多 个 任务 ， 因 此 可 以 看 成 是 只 有 单一 核心 的 硬件 。 即 便 用 拖延 的 
手段 提高 了 工作 效率 ,但 由 于 同时 只 能 处 理 一 项 任务 ， 而 每 天 24 小 时 这 个 时 间 是 固定 不 变 的 ， 
因此 一 个 人 能 完成 的 工作 总 量 是 存在 极限 的 。 














这 种 时 候 , “委派” 就 成 了 一 个 有 效 的 手段 。“ 委 派 ” 这 个 词 给 人 的 印象 可 能 不 太 好 ， 说 日 
了 ,就 是 当 以 自己 的 能 力 无 法 处 理 某 项 任务 时 , 转 而 借用 他 人 的 力量 来 完成 的 意思 。 如 果 说 协作 、 
协调 、 团 队 合作 的 话 ， 大 概 比 委 派 给 人 的 印象 要 好 一 些 吧 。 说 起 来 ， 这 和 用 多 核 代 蔡 单 核 来 提 
升 处 理 能 力 的 方法 如 出 一 入 。 


不 过 ， 和 多 核 一 样 ， 这 种 委派 的 做 法 也 会 遇 到 一 些 困 难 。 多 核 的 困难 大 概 有 下 面 儿 种 : 























口 任务 分 割 
口 通信 开销 
口 可 靠 性 


























这 些 问 题 ， 无 论 是 编程 还 是 现实 工作 中 都 是 共通 的 。 

















如 何 进 行 妥 善 的 任务 分 割 是 一 个 难题 。 如 果 将 处 理 集中 在 某 一 个 核心 (或 者 人 员 ) 上 ， 效 
率 就 会 降低 ， 然 而 要 想 事先 对 处 理 所 需 要 的 时 间 做 出 完全 的 预测 也 是 很 困难 的 。 尤 其 是 某 项 任 
务 和 其 他 任务 有 相互 依赖 关系 的 情况 下 ， 可 能 无 论 如 何 分 割 都 无 法 提高 工作 效率 。 




















我 们 可 以 把 任务 分 为 两 种 : 存在 后 续 处 理 ， 在 任务 完成 时 需要 获得 通知 的 “同步 任务 ”; 执 
行 开始 后 不 必 关 心 其 完成 情况 的 “异步 任务 "。 同 步 任 务 也 就 意味 着 存在 依赖 关系 ， 委 派 的 效果 
也 就 不 明显 。 因 此 ， 如 何 将 工作 分 割 成 异步 任务 就 成 了 提高 效率 的 关键 。 
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在 有 多 名 成 员 参 与 的 项 目 中 , 通信 开销 (沟通 开销 ) 也 不 可 小 筑 。 在 人 类 世界 中 , 由 于 “ 想 
要 传达 而 没 能 传达 ““ 产 生 了 误会 ”等 原因 导致 的 通信 开销 ， 比 编程 世界 中 要 更 为 显著 。 我 认 
为 导致 软件 开发 项 目 失败 的 最 大 原因 ， 正 是 由 于 没有 对 这 种 沟通 开销 引起 足够 的 重视 。 























最 后 一 个 问题 就 是 “可 靠 性 ”。 固 然 ， 一 个 人 工作 的 话 ， 可 能 会 因为 生病 而 导致 工作 无 法 进 
行 ， 这 也 是 一 种 风险 ， 但 随 着 参与 项 目的 人 数 增加 ， 成 员 之 中 有 人 发 生 问题 的 概率 也 随 之 上 升 。 
这 就 好 比 只 有 一 台电 脑 时 ， 往 往 不 太 担 心 它 会 出 故障 ， 但 在 管理 数据 中 心里 上 千 台 的 服务 器 时 ， 
就 必须 要 对 每 天 都 有 几 台 机 需 会 出 故障 的 情况 做 好 准备 。 








当 项 目 规模 增 大 时 ， 万 一 有 人 中 途 无 法 工作 ， 就 需要 考虑 如 何 修复 这 一 问题 。 当 然 ， 分 布 
式 编程 也 是 一 样 的 道理 。 














尺 非 阻塞 编 各 














在 编程 世界 中 ， 减负、 拖延 和 委派 是 非常 重要 的 ， 特 别 是 拖延 和 委派 妹 怕 还 不 为 大 家 所 
熟悉 ， 但 今后 应 该 会 愈 发 成 为 一 种 重要 的 编程 技巧 。 下 面 我 们 先 来 介绍 一 下 在 编程 中 最 大 限度 
利用 单 核 的 拖延 方法 ， 然 后 再 来 介绍 一 下 运用 多 核 的 委派 方法 。 











如 果 对 程序 运行 时 间 进 行 详细 分 析 就 可 以 看 出 ， 大 多 数 程 序 在 运行 时 ， 其 中 一 大 半 的 时 间 
CPU 都 在 无 所 事 事 。 实 际 上 ， 程 序 的 一 大 部 分 运行 时 间 都 消耗 在 了 等 待 输入 数据 等 环节 上 ， 也 
就 是 说 “等 待 ”消耗 了 大 量 的 CPU 时 间 。 














这 样 的 等 待 被 称 为 阻塞 (blocking )， 而 非 阻 塞 编 程 的 目的 正 是 试图 将 阻塞 控制 在 最 低 限度 。 
下 面 我 们 来 介绍 一 下 作为 非 阻塞 编程 框架 而 备 受 瞩目 的 “nodejs”"。 在 这 里 , 我 们 使 用 JavaScript 
来 进行 讲解 。 























node.s 框架 





node.js 是 一 种 用 于 JavaScript 的 事件 驱动 框架 。 提 到 JavaScript， 大 家 都 知道 它 是 一 种 般 入 
在 浏览 器 中 、 工 作 在 客户 端 环境 下 的 编程 语言 ， 而 node.js 却 是 在 服务 器 端 工作 的 。 























默认 般 入 到 各 种 浏览 器 中 的 客户 端 语言 ， 仙 怕 只 有 JavaScript 这 一 种 了 ， 但 在 服务 器 端 编 
程 中 ,语言 的 选择 则 更 为 自由 ， 那 么 为 什么 还 要 使 用 JavaScript 呢 ? 那 是 因为 在 服务 器 端 使 用 
JavaScript 有 它 特有 的 好 处 。 
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首先 是 性 能 。 随 着 Google Chrome 中 v8 引 敬 的 出 现 ， 各 大 浏览 右 在 JavaScript 引擎 性 能 提 
升 方面 的 竞争 愈演愈烈 。 可 以 说 ，JavaScript 是 目前 动态 语言 中 处 理性 能 最 高 的 一 种 ， 而 node.js 
也 搭载 了 以 高 性 能 著称 的 Google Chrome v8 引擎 。 

















其 次 ，JavaScript 的 标准 功能 很 少 ， 这 也 是 一 个 好 处 。 和 其 他 一 些 独立 语言 ， 如 Ruby 和 
Python 等 不 同 ，JavaScript 原本 就 是 作为 浏 览 需 能 入 式 语言 诞生 的 ， 甚 至 都 没有 提供 标准 的 文件 
LO 等 功能 。 




















然而 ， 在 事件 驱动 框架 上 编程 时 ， 通 常 输入 输出 等 可 能 产生 的 “等 待 ”是 非常 麻烦 的 ， 后 
面 我 们 会 详细 讲解 这 一 点 。node.js 所 搭载 的 JavaScript 引擎 本 身 就 没有 提供 可 能 会 产生 阻塞 的 
功能 ,因此 不 小 心 造 成 阻塞 的 风险 就 会 相应 减 小 。 当 然 , 像 死 循环 .异常 占用 CPU 等 导致 的 “等 
待 ” 还 是 无 法 避免 的 。 














匀 事件 驱动 编程 
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下 面 我 们 来 介绍 一 下 ， 在 nodejjs 这 样 的 事件 驱动 框架 中 ， 应 该 如 何 编 程 。 在 传统 的 过 程 型 
程 中 ， 各 项 操作 是 按照 预先 设 定好 的 顺序 来 执行 的 ( 图 1 )。 这 与 人 类 完成 工作 的 一 般 方 式 相 
同 ， 因 此 很 容易 理解 。 


出 

















相对 地 ， 在 事件 驱动 框架 所 提供 的 事件 驱动 编程 中 ， 不 存在 事先 设 定好 的 工作 顺序 ， 而 是 
对 来 自 外 部 的 “事件 ”作出 响应 ， 并 调用 与 该 事件 相对 应 的 “回调 函数 "。 这 里 所 说 的 事件 ， 包 
括 “ 来 自 外 部 的 输入 ”、“ 到 达 事 先 设 定 的 时 间 ”、“ 发 生 异 常情 况 ” 等 情况 。 在 事件 循环 框架 中 ， 
主 循环 程序 一 般 是 用 一 个 循环 来 等 待 事件 的 发 生 ， 当 检测 到 事件 发 生 时 ， 找 到 并 启动 与 该 事件 
相对 应 的 处 理 程 序 ( 回调 函数 )。 当 回调 函数 运行 完毕 后 ， 再 次 返回 到 循环 中 ， 等 待 下 一 个 事件 
(图 2)。 














件 
操作 A 坪 一 一 输入 


网 络 传输 的 数据 、、 7 回调 函数 
达 
呆 作 日 
文件 输入 完成 —» tht 
vy 3 事件 循环 
7 一 榆 出 到 达 指 定 的 AAA 


时 间 
图 1， 过程 型 编程 图 2 事件 驱动 编程 
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我 们 可 以 认为 ， 过 程 型 编程 类 似 于 每 个 单独 的 员工 完成 工作 的 方式 ， 而 事件 驱动 编程 则 类 
似 于 公司 整体 完成 工作 的 方式 。 当 发 生 客户 下 订单 的 事件 时 ， 销 售 部 门 ( 事件 循环 ) 会 在 接 到 
订单 后 将 工作 转交 给 各 业务 部 门 ( 回调 函数 ) 来 完成 ,这 和 事件 驱动 编程 的 模型 有 异曲同工 之 妙 。 
































尺 事 件 循 环 的 利 业 


要 实现 和 事件 循环 相同 的 功能 ， 除 了 用 回调 函数 之 外 ， 还 可 以 采用 启动 线程 的 方式 。 不 过 ， 
回调 只 是 一 种 普通 的 函数 调用 ， 相 比 之 下 ， 线 程 启动 所 需要 的 开销 要 大 得 多 。 而 且 ， 每 个 线程 
都 需要 占用 一 定 的 栈 空 间 (Linux 中 默认 为 每 个 线程 8MB 左右 )。 
































当然 , 我 们 可 以 使 用 线程 池 技术 , 事先 准备 好 一 些 线程 分 配给 回调 函数 来 使 用 , 但 即便 如 此 ， 
在 资源 消耗 方面 还 是 单线 程 方式 更 具有 优势 。 此 外 ， 使 用 单线 程 方式 ， 还 不 必 像 多 线程 那样 进 
行 排他 处 理 ， 由 此 引发 的 问题 也 会 相对 较 少 。 


男 一 方面 ， 单 线程 方式 也 有 它 的 缺点 。 虽 然 单 线程 在 轻 量化 方面 具备 优势 ， 但 也 同时 意味 
着 无 法 利用 多 核 。 此 外 ， 如 果 回 调 函 数 不 小 心 产生 了 阻塞 ， 就 会 导致 事件 处 理 的 整体 停滞 ， 但 
在 多 线程 /线程 池 方 式 中 就 不 存在 这 样 的 问题 。 


食 node.js 编程 


无 论 是 Debian GNU/Linux 还 是 我 所 使 用 的 sid (开发 版 ) 中 ， 都 提供 了 nodejs 软件 包 ， 
安装 方法 如 下 : 





























# apt-get install nodejs 器 


如 果 你 所 使 用 的 发 行 版 中 没有 提供 软件 包 ， 就 需要 用 源 代码 来 安装 。 和 其 他 大 多 数 开 源 软 
件 一 样 ，node.js 的 编译 安装 也 是 按 configure 、make 、make install 的 标准 步骤 来 进行 的 。 

















安装 完毕 后 就 可 以 使 用 node 命令 了 ， 这 是 nodejs 的 主体 。 不 带 任何 参数 启动 node 命令 ， 
就 会 进入 下 面 这 样 的 交互 模式 。 
% node 器 


> console.1og("hello world") 
hello world 





Q@ sid 是 Debian 不 稳定 版 本 ( 开发 版 本 ) 的 代号 : http://www.debian.org/releases/sid/。 
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console.log 是 用 于 在 交互 模式 下 进行 输出 的 函数 。 在 非 交 互 模式 下 则 应 0 输出 ， 因 此 
可 以 认为 ， 在 正式 环境 下 是 不 会 使 用 它 的 。 不 过 ， 如 果 要 确认 nodejs 是 否 工 作 正 常 ， 这 个 函数 是 非 
党 方便 的 。 在 这 里 我 们 基本 上 是 在 交互 模式 下 进行 讲解 的 ， 因 此 会 经 常 使 用 到 console. es 函数 。 




















好 ， 下 面 我 们 来 引发 一 个 事件 试 试 看 。 要 设置 一 个 定时 发 生 的 事件 及 其 相应 的 回调 函数 ， 
可 以 使 用 setTimeout( 函数 。 











> setTimeout(function(){ 
Sconso en og he om: 
2 000 


调用 setTimeout( 的 作用 是 ， 在 经 过 第 二 个 参数 指定 的 时 间 (单位 为 毫秒 ) 之 后 引发 一 个 事件 ， 
并 在 该 事件 发 生 时 调用 第 一 个 参数 所 指定 的 回调 函数 。Timeout 事件 是 一 个 仅 发 生 一 次 的 事件 。 











funetnona 
console.1og("hello"); 


} 


ee 和 Ruby 中 的 lambda 功能 差不多 。 这 里 的 重点 是 ， 调 用 setTimeout() 
函数 之 后 ， 该 函数 马上 就 执行 完毕 并 退出 了 。 











setTimeout() 的 作用 仅仅 是 预约 一 个 事件 的 发 生 ， 并 设置 一 个 回调 函数 ， 并 没有 必要 进行 任 
何等 待 。 这 与 Ruby 中 的 sleep 方法 是 不 同 的 ，node.js 会 持续 对 事件 进行 监视 ， 基 本 上 不 会 发 生 
阻塞 。 








node.js 的 对 话 模式 ， 表 面 上 看 似乎 是 在 一 直 等 待 标准 和 输入， 但 实际 上 只 是 对 标准 输入 传 来 
数据 这 一 事件 进行 响应 ， 并 设置 一 个 回调 函数 ， 将 输入 的 字符 串 作 为 JavaScript 程序 进行 编译 并 
执行 。 因 此 ， 在 交互 模式 下 输入 JavaScript 代码 ， 就 会 被 立即 编译 和 执行 ， 执 行 完毕 后 ， 会 再 度 
返回 nodejs 事件 循环 ， 事 件 处 理 和 对 回调 函数 的 调用 ， 都 是 在 事件 循环 中 完成 的 。 





























setTimeout() 会 产生 一 个 仅 发 生 一 次 的 事件 。 如 果 要 产生 以 一 定 间 隔 重 复发 生 的 事件 ， 可 以 
使 用 “setInterval()” 艺 数 来 设置 相应 的 回调 函数 。 





> var iv = setInterval(functi 
om 
有 console.1og("hello"); 
e2000D 
hello 
hello 


通过 setInterval() 函数 ， 我 们 设置 了 一 个 每 2000 毫秒 发 生 一 次 的 事件 ， 并 在 发 生 事件 时 调 
用 指定 的 回调 函数 。 不 过 ， 每 隔 两 秒 就 显示 一 条 hello 实在 是 太 烦 人 了 ,我们 还 是 把 这 个 定期 事 
件 给 取消 掉 吧 。 
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为 此 我 们 需要 使 用 clearInterval0 函数 。 将 setInterval0 的 返回 值 作为 参数 调用 clearInterval() 





就 可 以 解除 指定 的 定期 事件 。 


> clearInterval(iv) ; 


仿 nodejs 网 络 编程 




















网 络 服务 器 才 是 发 挥 node.js 本 领 的 最 好 舞 


台 。 我 们 移 来 实现 一 个 最 简单 的 服务 器 ， 即 将 从 





套 接 字 接收 的 数据 原原本本 返回 的 “回声 服务 器 ”。 


用 node.js 实现 的 回声 服务 器 如 图 3 所 示 。 





作为 对 照 ， 我 们 不 用 事件 驱动 框架 ,而 是 用 





Ruby 实现 另 一 个 版 本 的 回声 服务 需 , 如 图 4 所 示 。 


我 们 来 连接 一 下 试 试看 。 在 nodejs 中 ， 要 启 


动 回声 服务 器 ， 需 要 将 图 3 中 的 程序 保存 到 文件 


中 ， 如 echo.js， 然 后 执行 : 


var net = require("net"); 
net.createServer(function(sock){ 
sockaonG datan fumetiomGdatad 
sock.write(data); 
py nis tenc e000 














到 3 ”用 node.js 实现 的 回声 服务 器 














% node echo.js © 





require "socket" 


svr = TCPServer.open(8000) 
SOE isVvral 


loop do 
result = select(socks); 
next if result == nil 
fomeseime reso ey 
if s == SVr 


MISw SacceDe 
socks.push(ns) 
else 
if s.eof? 
s.close socks.delete(s) 
elsif str = 
s.readpartial(1024) 
s.write(str) 
end 
end 
end 
end 
































图 4 Ruby 实现 的 回声 服务 器 


就 可 以 启动 程序 了 。Ruby 版 则 可 以 将 图 4 的 程序 保存 为 echo.rb ， 并 执行 : 


% ruby echo.rb © 








客户 端 我 们 就 偷 个 懒 ， 直 接 用 netcat 了 。 无 论 是 使 用 nodejs 版 还 是 Ruby 版 ， 都 可 以 通过 下 列 





命令 来 连接 : 


% netcat localhost 8000 © 


连接 后 , 只 要 用 键盘 输入 字符 , 就 会 得 到 一 行 和 输入 的 字符 相同 的 输出 结果 。 要 结束 telnet 会 话 ， 








可 以 使 用 “Ctrl+C” 组 合 键 。 
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将 图 3 程序 和 图 4 程序 对 比 一 下 ,会 发 现 很 多 不 同 点 。 首 先 ， 图 4 的 Ruby 程序 实际 上 是 自 
行 实现 了 相当 于 事件 循环 的 部 分 。 套 接 字 的 监听 、 注 册 、 删 除 等 管理 工作 也 是 自行 完成 的 ， 这 
导致 代码 的 规模 变 得 相对 较 大 。 














node.js 版 则 比 Ruby 版 要 简洁 许多 。 虽 说 采用 node.js 需要 熟悉 回调 风格 ,但 作为 服务 器 的 
实现 来 说 ， 显 然 还 是 事件 驱动 框架 更 加 高 效 。 








下 面 我 们 来 详细 看 看 nodejs 版 和 Ruby 版 之 间 的 区 别 。 





首先 ，node.js 版 中 ， 开 头 使 用 require 函数 引用 了 net 库 ，net 库 提 供 了 套 接 字 通 信 相 关 的 功 
能 。 接 下 来 调用 的 net.createServer 函数 ， 用 于 创建 一 个 TCP/IP 服务 器 套 接 字 ， 并 在 该 套 接 字 上 
接受 来 自 客 户 端的 连接 请 求 。 在 createServer 的 参数 中 所 指定 的 函数 ， 会 被 作为 回调 函数 进行 调 
用 ， 当 回调 函数 被 调用 时 ,会 将 客户 端 连接 的 套 接 字 ( sock ) 作为 参数 传递 给 它 。sock 的 on 方 
法 用 于 设置 sock 相关 事件 的 回调 函数 。 




















当 来 自 客 户 端 的 数据 到 达 时 会 发 生 data 事件 ， 收 到 的 数据 会 被 传递 给 回调 函数 。 这 里 我 们 
要 实现 的 是 一 个 回声 服务 器 ， 因 此 只 需要 将 收 到 的 数据 原本 返回 即 可 。1listen 方法 用 于 在 服务 需 
套 接 字 上 监听 指定 的 端口 号 。 











随后 ， 程 序 到 达 末 尾 ， 进 入 事件 循环 。 需 要 注意 的 是 ，node.js 程序 中 ， 程 序 主体 仅 负责 对 
事件 和 回调 函数 进行 设置 和 初始 化 ,实际 的 处 理 是 在 事件 循环 内 完成 的 。 





相对 地 ，Ruby 版 则 需要 自行 管理 事件 循环 和 套 接 字 ， 因 此 程序 结构 相对 复杂 一 些 。 大 体 上 
是 这 样 的 : 





(1) 通过 TCPSever.open 打开 服务 右 套 接 字 。 

(2) 通过 select 等 待 事件 。 

(3) 如 果 是 对 服务 器 套 接 字 产 生 的 事件 ， 则 通过 accept 打开 客户 端 连接 套 接 字 。 
(4) 除 此 之 外 的 事件 ， 如 遇 到 eofP (连接 结束 ) 则 关闭 客户 端 套 接 字 。 

(5) 读 取 数 据 ， 并 将 数据 原原本本 回 写 至 客户 端 。 


在 nodejs 中 ， 上 述 (2)、(3)、(4) 的 部 分 已 经 甬 入 在 框架 中 ， 不 需要 以 显 式 代码 来 编写 ， 而 且 ， 
程序 员 也 不 必 关 心 资源 管理 等 细节 。 正 是 由 于 这 些 特性 ， 使 得 在 回声 服务 器 的 实现 上 ，node.js 
的 代码 能 够 做 到 非常 简洁 。 
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全 nodejs 回调 风格 





像 图 3 这 样 将 多 个 回调 函数 全 加 起 来 的 编程 风格 ， 奴 怕 还 是 要 习惯 一 下 才能 上 和 手 。 





下 面 我 们 通过 实现 一 个 简单 的 HTTP 服务 右 ， 来 仔细 探讨 一 下 回调 风格 。 图 5 是 运用 node. 
js 库 实 现 的 一 个 超 简 单 的 HTTP 服务 器 。 无 论 收 到 任何 请 求 ， 它 都 只 返回 hello world 这 个 纯 文 
本 字符 串 。 


var http = require('http'); 


hebpacneateserverGfunebionreq es 
res.writeHead(200, {'Content-Type':'text/plain'}); 
res.write("hello world¥n"); 
res.end(); 

}).1listen(8000); 








到 5 用 node.js 编写 的 HTTP 服务 器 (1) 
我 们 来 实际 访问 一 下 试 试看 。 











wc /ocalhose a 000 
hello world 


很 简单 吧 。 




















我 们 来 思考 一 下 回调 风格 。 图 6 所 示 的 ， 是 一 个 读 取 当前 目录 下 的 index.html 文件 并 返回 
其 内 容 的 HTTP 服务 器 。index.html 的 读 取 是 用 ff 库 的 readFile 函数 来 完成 的 。 











这 个 函数 会 在 文件 读 取 完毕 后 调用 回调 函数 ， 也 就 是 说 即便 是 简单 的 文件 输入 输出 也 采用 
了 回调 风格 。 传 递 给 回调 函数 的 参数 包括 是 否 发 生 错 误 的 信息 ， 以 及 读 取 到 的 字符 串 。 














nodejs 的 代 库 中 ， 也 提供 了 用 于 同步 读 取 操作 的 readFileSync 函数 ， 但 在 nodejs 中 ， 还 
推荐 采用 无 阻塞 风险 的 回调 风格 。 


[ou 








像 这 样 ， 随 着 接受 请 求 、 读 取 文 件 等 操作 的 痉 加 ， 回 调 函 数 的 组 套 也 会 越 来 越 深 ， 这 是 
调 风格 所 面临 的 一 个 课题 。 当 然 ， 我 们 也 有 方法 来 应 对 ， 不 过 关于 这 个 问题 ， 我 们 还 是 将 来 
机 会 再 讲 吧 。 


本 
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var http = require("http"); 
var fs = require("fs"); 


http.createServer(function(req, res) { 
fs.readFile("index.html", function(err, content) { 

en 
res.writeHead(404, {"Content-Type":"text/plain"}); 
res.write("index.html: no such file¥n"); 

} 

else { 
res.writeHead(200, {"Content-Type":"text/html; charset=utf-8"} 
res.write(content); 

} 


res.end(); 


同属 
}).1isten(8000); 
图 6 用 node.js 编写 的 HTTP 服务 器 ( 2 ) 














仿 node.js 的 优越 性 
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)B 











通过 刚才 的 介绍 ， 大 家 是 不 是 能 够 感觉 到 ， 用 nodejs 可 以 很 容易 地 实现 一 个 互联 网 服务 器 


呢 ? 即使 必须 要 习惯 nodejs 的 回调 风格 ， 这 样 的 特性 也 是 非常 诱 人 的 。 





不 过 ,用 node.js 来 实现 服务 需 的 优越 性 并 非 只 有 “容易 ”这 一 点 而 已 。 首 先 ， 


在 事件 检测 上 ， 





node.js 并 没有 采用 随 连 接 数 的 增长 速度 逐渐 变 慢 的 select 系统 调用 这 一 传统 方式 ， 而 是 采用 了 
与 连接 数 无 关 ， 能 够 维持 一 定性 能 的 epoll (Linux ) 和 kqueue ( FreeBSD ) 等 方式 。 因 此 ， 在 连 
接 数 上 限 值 方面 可 以 比较 令 人 放心 。 但 是 ， 对 于 每 个 进程 来 说 ， 文 件 描 述 符 的 数量 在 操作 系统 











中 是 存在 上 限 的 ， 要 缓解 这 一 上 限 可 能 还 需要 一 些 额 外 的 设置 。 





其 次 ，node.js 的 http 库 采 用 了 HTTP1.1 的 keep-alive 方式 ， 来 自 同 一 客户 端的 连接 是 可 以 




















重复 使 用 的 。TCP 套 接 字 的 连接 操作 需要 一 定 的 开销 ， 而 通过 对 连接 的 重复 使 朋 





同一 台 服 务 咒 时 ， 就 可 以 获得 较 高 的 性 能 。 















































日 ， 当 反复 访问 


和 有， 通过 运用 事件 驱动 模型 ， 可 以 减少 每 个 连接 所 消耗 的 资源 。 综 合 上 述 这 些 优势 可 以 


看 出 ， 同 一 客户 端 对 同一 服务 器 进行 频繁 连接 ， 且 连接 数 非常 大 的 场景 ， 例 如 网 络 聊天 程序 的 








实现 ， 使 用 node.js 是 最 合适 的 。 


我 们 对 图 3 的 回声 服务 需 进 行 些许 改造 ， 就 实现 了 一 个 简单 的 聊天 服务 器 ( 








图 7)。 这 里 所 


做 的 改造 ， 只 是 将 回声 服务 带 返 回答 入 的 字符 串 的 部 分 ， 改 成 了 将 字符 串 发 送 给 当前 连接 的 所 
有 客户 端 。 男 外 ， 我 们 还 为 连接 中 断 时 发 生 的 end 事件 设置 了 一 个 回调 函数 ， 用 于 将 客户 端 从 








连接 列表 中 删除 。 
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通过 这 样 简单 的 修改 ， 当 多 个 客户 端 连接 
到 服务 器 时 ， 从 其 中 任意 客户 端 上 输入 的 信息 
就 可 以 在 所 有 客户 端 上 显示 出 来 。 当 然 ， 作 为 
简易 聊天 程序 来 说 ， 它 还 无 法 显示 出 某 条 消息 
是 由 谁 发 送 的 ， 因 此 还 不 是 很 实用 。 但 如 果 能 
够 从 连接 的 套 接 字 获取 相关 信息 的 话 ， 修 改 起 
来 也 应 该 不 难 。 











此 外 ,我 们 在 这 里 直接 使 用 了 TCP 连接 ， 
但 只 要 运用 keep-alive 和 Ajax (Asynchronous 
JavaScript and XML ) 技术 ， 要 用 HTTP 实现 
实时 聊天 ( 也 就 是 所 谓 的 COMET ) 也 并 非 难 事 。 
能 够 轻松 开发 出 可 负担 如 此 大 量 连 接 的 互联 网 
服务 器 ， 正 是 nodejs 这 一 事件 驱动 框架 的 优 
势 所 在 。 





仿 EventMachine 与 Rev 


6.4 node.js 


var net = require("net"); 
var lirentse ll; 


net.createServer(function(sock){ 
cniemtss usesock 
soclk on ata eumer oma a 
om Var Oem ens lem ne nt 


clients[i].write(data); 

J 
] 
socke on en ue on 

var i = clients.index0f(sock); 
Cl remes sl ee 

je 
ys Cent O00 























图 7 node.js 编写 的 网 络 聊天 程序 

















当然 ， 面 向 Ruby 的 事件 驱动 框架 也 是 存在 的 ， 其 中 最 有 具 代 表 性 的 当 属 EventMachine 和 
Rev。EventMachine 是 面向 Ruby 的 事件 驱动 框架 中 的 元 老 ， 实 际 上 ， 在 nodejs 的 官方 介绍 中 ， 
也 用 了 “ 像 EventMachine” "这样 的 说 法 。 之 所 以 在 这 里 没有 介绍 它们 ， 是 因为 相 比 这 些 框 架 所 
提供 的 “为 每 个 事件 启动 相应 的 对 象 方法 ”的 方式 来 说 ，node.js 这 样 注 册 回 调 函 数 的 方式 更 加 


























容易 讲解 。 














QD “Node is similar in design to and influenced by systems like Ruby’s Event Machine or Python’s Twisted.” ( http://nodejs. 


org/about/ ) 
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BY 
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SS 








大 家 还 记得 6.4 节 中 学 到 的 那些 提高 工作 效率 的 关键 词 吗 ? 就 是 拖延 和 委派 。 所 谓 拖延 ， 
是 将 工作 分 解 成 细小 的 任务 ， 将 无 法 马上 着 手 的 工作 拖 到 后 面 再 做 ， 从 而 减少 等 待 和 无 用 的 
寺 间 ， 提 高 整体 的 工作 效率 。 在 6.4 节 中 ,我 们 通过 nodejs 这 一 彻底 杜绝 等 待 的 非 阻 塞 框架 ， 
对 拖延 策略 进行 了 具体 的 实践 。 

















< 














IO 


然而 ， 无 论 如 何 削 减 无 谓 的 等 待 ， 在 单位 时 间 内 ， 每 个 人 所 能 完成 的 工作 量 ， 或 者 每 个 
CPU 所 能 处 理 的 工作 量 ， 都 是 存在 极限 的 。 因 此 ， 我 们 需要 另 一 个 策略 ， 即 委派 。 也 就 是 说 ， 
将 工作 交 给 多 个 人 ， 或 者 多 个 CPU 来 共同 分 担 ， 从 而 提升 整体 的 处 理 效率 。 











接 下 来 我 们 来 具体 学 习 一 下 委派 策略 。 在 编程 中 ， 委 派 就 意味 着 充分 运用 多 个 CPU 来 进行 
分 布 式 处 理 。 
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对 多 CPU 系统 的 需求 主要 出 于 两 个 原因 : 一 个 是 CPU 在 摩尔 定律 影响 下 的 发 展 趋势 ; 另 
一 个 是 对 绝对 性 能 的 需求 。 

关于 前 者 ， 在 摩尔 定律 的 影响 下 ， 一 直 以 来 CPU 性 能 的 提升 都 是 通过 晶体 管 数 量 的 增加 来 
实现 的 ， 但 随 着 渗 漏 电流 等 问题 所 形成 的 障碍 ， 这 种 传统 的 性 能 提升 方式 很 快 就 会 达到 极限 。 
于 是 ， 在 一 块 芯片 上 搭载 多 个 CPU 核心 的 “多 核 ” 技 术 便 应 运 而 生 。 








最 近 的 电脑 中 ， 多 个 程序 同时 工作 的 多 任务 方式 已 经 成 为 主流 ， 因 此 如 果 CPU 拥有 多 个 核 
心 能 够 进行 并 行 处 理 ， 那 么 必然 会 带 来 直接 的 性 能 提升 。 美 国 英 特 尔 公 司 推出 的 Core i7 CPU 搭 
载 了 4 个 物理 核心 ， 通 过 超 线程 技术 ， 对 外 能 够 体现 8 个 核心 ， 面 向 普通 电脑 的 CPU 能 做 到 这 
样 的 地 步 ， 已 经 着 实 令 人 惊叹 了 。 

















既然 普通 电脑 都 已 经 配备 多 核 CPU 了， 那么 积极 运用 这 一 技术 来 提高 工作 效率 也 是 理 所 当 
然 的 事 。 然 而 ， 和 过 去 CPU 本 丑 的 性 能 提升 不 同 ， 要 想 在 多 核 环境 下 提升 处 理性 能 ， 软 件 方面 
也 必须 要 支持 多 核 才 行 。 
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在 产生 对 多 核 系统 需求 的 两 个 原因 中 ， 前 者 属于 环境 问题 ， 即 “存在 多 核 CPU， 因 此 想 要 
对 其 进行 活用 ”这 样 的 态度 ; 而 后 者 ， 即 对 绝对 处 理性 能 的 需求 ， 可 以 说 是 一 种 刚性 需求 了 。 
有 个 词 叫做 “信息 爆炸 ”， 也 就 是 说 ， 我 们 每 天 所 要 接触 的 数据 量 正在 不 断 增加 。 各 种 设备 通过 连 
接 到 电脑 和 网 络 ， 在 不 断 获 取 新 的 信息 ， 而 原本 孤立 存在 的 数据 ， 也 将 通过 互联 网 开始 相互 流通 。 

















在 这 一 变化 的 影响 下 ,我 们 每 天 所 要 接触 到 的 数据 量 正在 飞速 增长 。 既 然 单个 CPU 的 性 能 
提升 已 经 遇 到 了 痊 贷 ， 那 么 通过 捆绑 多 个 CPU 来 提升 性 能 可 以 说 是 一 个 必然 的 趋势 。 


























无 论 如 何 ， 可 以 说 ， 要 提升 处 理性 能 ， 充 分 运用 多 CPU 是 毫 无 悬念 的 ， 为 此 ， 必 须要 开发 
出 能 够 活用 多 CPU 的 软件 。 





尺 阿 姆 达尔 定律 
不 过 ， 首 先 大 家 必须 要 记 住 一 点 ， 从 某 种 意义 上 说 也 是 理所当然 的 ， 那 就 是 即便 为 活用 多 


CPU 开发 了 相应 的 软件 ， 也 不 可 能 无 限 地 提升 工作 效率 。 








阿 姆 达尔 定律 说 的 就 是 这 件 事 。 前 面 我 们 已 经 讲 过 , 阿 姆 达尔 定律 是 由 吉 恩 - 阿 姆 达尔 ( Gene 
Amdahl ) 提出 的 ， 其 内 容 是 :“( 通过 并 行 计算 所 获得 的 ) 系统 性 能 提升 效果 ， 会 随 着 无 法 并 行 
的 部 分 而 产生 饱和 ”。 


























能 够 活用 多 CPU 的 处 理 ， 基 本 上 可 以 分 解 为 下 列 步骤 : 


(1) 数据 分 割 、 分 配 
(2) 对 已 分 配 的 数据 进行 并 行 处 理 
(3) 将 已 处 理 的 数据 进行 集约 








其 中 ， 能 够 并 行 处 理 的 部 分 基本 上 只 有 (2)， 而 数据 的 分 割 和 集约 无 论 有 多 少 个 CPU， 也 无 
法 最 大 限度 地 运用 它们 的 性 能 。 





饼 多 CPU 的 运用 方法 





运用 多 CPU 的 手段 ,大体 上 可 以 分 成 线程 方式 和 进程 方式 两 种 。 





除 此 之 外 ， 也 有 一 些 支 持 分 布 式 编程 的 框架 , 但 从 内 部 原理 来 看 ， 还 是 采用 了 线程 、 进 程 
两 种 方式 中 的 一 种 。 
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线程 和 进程 都 是 多 CPU 的 有 效 运 用 手段 ,但 各 自 拥 有 不 同 的 性 质 ， 也 拥有 各 自 的 优点 和 缺 
点 ， 应 该 根据 应 用 程序 的 性 质 进 行 选择 。 








线程 是 在 一 个 进程 中 工作 的 控制 流程 ， 其 最 大 的 特点 是 ， 工 作 在 同一 个 进程 内 的 多 个 线程 
之 间 ， 其 内 存 空 间 是 共享 的 。 这 一 特点 可 以 说 是 喜忧参半 ， 却 决定 了 线程 的 性 格 。 











共享 内 存 空间 ， 就 意味 着 在 线程 间 操作 数据 时 不 需要 进行 复制 。 尤 其 是 在 线程 间 需 要 操作 
的 数据 非常 多 的 情况 下 ， 像 这 样 无 需 复制 就 能 够 传递 数据 ， 在 处 理性 能 方面 是 非常 有 利 的 。 





然而 ， 在 获得 上 述 好 处 的 同时 ， 也 会 带 来 一 定 的 隐患 。 共 享 内 存 空 间 ， 也 意味 着 某 个 线程 
中 操作 的 数据 结构 ， 可 能 被 其 他 线程 修改 。 由 于 各 线程 是 独立 工作 的 ， 因 此 可 能 会 导致 一 些 特 
殊 时 机 才 出 现 的 、 非 常 难以 发 现 的 bug。 











里 然 大 多 数 情 况 下 不 会 出 问题 ,然而 在 非常 偶然 的 情况 下 ,两 个 线程 同时 访问 同一 数据 结构 ， 
就 会 导 臻 程序 崩 江 ,而 且 这 样 的 bug 是 很 难 重 现 的 。 一 想到 可 能 要 去 寻找 这 样 的 bug， 就 会 不 
由 得 感到 眼前 发 黑 。 





此 外 ,线程 是 在 一 个 进程 中 工作 的 控制 流程 ， 反 过 来 说 ， 所 有 的 处 理 都 必须 在 同一 个 进程 
中 完成 ， 这 也 就 意味 着 ， 如 果 要 只 采用 线程 方式 来 运用 多 CPU ， 就 必须 在 一 人 台电 脑 上 完成 所 有 











然而 ,即便 是 在 多 核 已 经 司空 见 惯 的 现在 ,一 台电 脑 上 能 够 使 用 的 核心 数量 最 多 也 就 是 4 核 ， 
算 上 超 线程 也 就 是 8 核 。 服 务 器 的 话 可 能 会 配备 更 多 的 核心 。 但 无 论 如 何 ， 现 在 还 无 法 达到 数 
百 甚 至 数 千 核心 的 规模 。 如 果 要 实现 更 高 的 并 行 度 ， 仅 敌 线 程 还 是 会 遇 到 极限 的 。 











相对 地 , 多 进程 方式 同样 是 喜忧参半 的 , 其 特点 正好 和 线程 方式 相反 , 即 无 法 共享 内 存 空间 ， 
但 处 理 不 会 被 局 限 在 一 合计 算 机 上 完成 。 








无 法 共享 内 存 空 间 ， 就 意味 着 在 操作 数据 时 需要 进行 复制 操作 ， 对 性 能 有 不 利 影响 。 但 是 ， 
在 并 发 编程 中 ， 数 据 共享 一 向 是 引发 问题 的 罪魁 祸首 ， 因 此 从 牺牲 性 能 换取 安全 性 的 角度 来 说 ， 
也 可 以 算是 一 个 优点 。 














此 外 ,刚才 也 提 到 过 ， 在 一 人 台 计 算 机 所 搭载 的 CPU 数量 不 多 的 情况 下 ， 使 用 进程 方式 能 够 
通过 多 人 台 计 算 机 构成 的 系统 运用 更 多 的 CPU 进行 并 行 处 理 ， 这 是 一 个 很 大 的 优点 。 不 过 ,在 这 
样 的 场景 中 ， 选 择 何 种 手段 实现 进程 间 的 数据 交换 就 显得 非常 重要 。 























尽管 个 人 喜好 可 能 并 不 可 靠 , 但 相 比 线程 方式 来 说 ， 我 更 加 倾向 于 使 用 进程 方式 。 





理由 有 两 个 。 首 先 ， 要 安全 使 用 线程 相当 困难 。 相 比 共 享 内 存 帝 来 的 性 能 提升 来 说 ， 由 于 
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状态 的 共享 会 导致 一 些 偶 发 性 bug， 因 此 风险 大 于 好 处 。 


其 次 ， 对 性 能 提升 带 来 的 贡献 ， 会 受到 该 计算 机 中 搭载 的 CPU 核心 数量 上 限 的 制约 ， 因 此 
其 可 扩展 性 相对 较 低 。 换 名 话说 ， 可 能 搞 得 很 辛苦 ， 却 得 不 到 太 多 的 好 处 ， 性 价 比 不 高 。 




















当然 , 在 某 些 情况 下 , 线程 方式 比 进程 方式 更 合适 , 并 不 是 说 线程 方式 就 该 从 世界 上 消失 了 。 
不 过 ， 我 认为 线程 方式 只 应 该 用 在 有 限 的 情况 中 ， 而 且 是 用 在 一 般 用 户 看 不 见 的 地 方 ， 而 不 应 
该 在 应 用 程序 架构 模型 的 玉 度 上 人 使用。 当然， 我 知道 一 定 有 人 不 同意 我 的 看 法 。 


























仿 进程 间 通 信 





由 于 线程 是 共享 内 存 空 间 的 ， 因 此 不 会 发 生 所 谓 的 通信 。 但 反 过 来 说 ， 则 存在 如 何 防止 多 
个 进程 同时 访问 数据 的 排他 控制 问题 。 











相对 地 , 由 于 进程 之 间 不 共享 数据 ,因此 需要 显 式 地 进行 通信 。 进 程 间 通信 的 手段 有 很 多 种 ， 
其 中 具有 代表 性 的 有 下 列 几 种 。 





























口 管道 

DD SysV IPC 

口 TCP 套 接 字 
口 UDP 套 接 字 
D UNIX 套 接 字 














下 面 我 们 来 分 别 简单 介绍 一 下 。 


饼 管 道 





所 谓 管道 ， 就 是 能 够 从 一 侧 答 出， 然后 从 另 一 侧 读 取 的 文件 描述 符 对 。Shell 中 的 管道 等 也 
是 通过 这 一 方式 实现 的 。 

















文件 描述 符 在 每 个 进程 中 是 独立 存在 的 ， 但 创建 子 进程 时 会 继承 父 进程 中 所 有 的 文件 描述 
符 ， 因 此 它 可 以 用 于 在 具有 父子 、 兄 弟 关系 的 进程 之 间 进 行 通信 。 









































例如 ， 在 具有 父子 关系 的 进程 之 间 进 行 管 道 通 信 时 ， 可 以 按 下 列 步骤 操作 。 在 这 里 为 了 简 
单 起 见 ， 我 们 只 由 子 进程 向 父 进程 进行 通信 。 
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Q 首先 ， 使 用 pipe 系统 调用 ,创建 一 对 文件 描述 符 。 下 面 我 们 将 读 取 一 方 的 文件 描述 符 称 
为 “r”， 将 写 和 人 一 侧 的 文件 描述 符 称 为 “w”。 

@) 通过 fork 系统 调用 创建 子 进 程 。 

@) 在 父 进程 一 方 将 描述 符 w 关闭 。 

@ 在 子 进 程 一 方 将 描述 符 r 关 闭 。 

@) 在 子 进程 一 方 将 要 发 送 给 父 进程 的 数据 写 入 描述 符 w。 

@) 在 父 进程 一 方 从 描述 符 r 中 读 取 数据 。 





为 了 实现 进程 间 的 双向 通信 ， 需 要 按 与 上 述 相同 的 步骤 创建 两 组 管道 。 虽然 比较 麻烦 ， 但 
难度 不 大 。 





和 Shell 一 样 ， 要 在 两 个 子 进 程 之 间 进行 通信 ， 只 要 创建 管道 并 分 配给 各 子 进程 ， 各 子 进程 
之 间 就 可 以 直接 通信 了 。 为 了 将 进程 与 进程 联系 起 来 ， 每 次 都 需要 执行 上 述 步骤 ， 一旦 自己 亲 
自 尝 试 过 一 次 之 后 ， 就 会 明白 Shell 有 多 人 么 强大 了 。 











管道 通信 只 能 用 于 具有 父子 、 兄 弟 关系 、 可 共享 文件 描述 符 的 进程 之 间 ， 因 此 只 能 实现 同 
一 台电 脑 上 的 进程 间 通 信 。 实 际 上 ， 如 果 使 用 后 面 要 介绍 的 UNIX 套 接 字 ， 就 可 以 在 不 具有 父 
子 关系 的 进程 之 间 传 递 文件 描述 符 ， 但 只 能 用 在 同一 台电 脑 上 的 这 一 限制 依然 存在 。 























仿 SysV IPC 





UNIX 的 System V (Five ) 版 本 引入 了 一 组 称 为 SysV IPC 的 进程 间 通 信 API， 其 中 IPC 就 
是 Inter Process Communication ( 进程 间 通 信 ) 的 缩写 。 


SysV IPC 包括 下 列 3 种 通信 方式 。 





口 消息 队列 
口 信号 量 
口 共享 内 存 

















消息 队列 是 一 种 用 于 进程 间 数 据 通信 的 手段 。 管 道 只 是 一 种 流 机 制 ， 每 次 写 入 数据 的 长 度 
等 信息 是 无 法 保存 的 ， 相 对 地 ， 消 息 队 列 则 可 以 保存 写 和 消息 的 长 度 。 























信号 量 (semaphore ) 是 一 种 带 有 互 斥 计数 需 的 标志 (fag )。 这 个 词 原本 是 人 衙 兰 语 “ 育 语 ” 
的 意思 ， 在 信号 量 中 可 以 设 定 对 某 种 “资源 ”同时 访问 数量 的 上 限 。 














间 
性 
也 





存 是 一 块 在 进程 间 共 享 的 内 存 空间 。 通 过 将 共享 内 存 空 间 分 配 到 自身 进程 内 存 空间 














图 灵 社 区 会 员 Ender(onlyliuxin@gmail.com) 专 享 尊重 版 权 


6.5 ZeroMQ 


中 (attach ) 的 方式 来 访问 。 由 于 对 共享 内 存 的 访问 并 没有 进行 排他 控制 ， 因 此 无 法 避免 一 些 偶 
发 性 问题 ， 必 须 使 用 信号 量 等 手段 进行 保护 。 





不 过 ， 说 实话 ， 我 自己 从 来 没 用 过 SysV IPC。 原 因 有 很 多 ,最 重要 的 一 个 原因 是 资源 泄漏 。 
由 于 SysV IPC 的 通信 路 径 能 够 跨 进程 访问 ， 因 此 在 使 用 时 需要 向 操作 系统 申请 分 配 才能 进行 通 
信 ， 通信 完全 结束 之 后 还 必须 显 式 销毁 ， 如 果 忘 记 销 毁 的 话 ， 就 会 在 操作 系统 内 存 中 留 下 垃圾 。 
相 比 之 下 ,管道 之 类 的 方式 ,在 其 所 属 进程 结束 的 同时 会 自动 销毁 ,因此 比 SysV IPC 要 更 加 易 用 。 


























其 次 ， 学习 使 用 新 的 API 要 花 一 些 精力 ， 但 结果 也 只 能 用 在 一 台电 脑 上 的 进程 间 通 信 中 ， 
真是 让 人 没什么 动力 去 用 呢 。 











最 后 一 个 原因 ， 就 是 在 20 多 年 前 我 开始 学 习 UNIX 编程 的 时 候 ， 并 非 所 有 的 操作 系统 都 
提供 了 这 一 功能 。 当 时 ， 擅 长 商用 领域 的 AT&T 系 System V UNIX 和 加 州 大 学 伯克利 分 校 开发 
的 BSD UNIX 正 处 于 对 峙 时 期 。 那 个 时 候 ， 我 主要 用 的 是 BSD 系 UNIX， 而 这 个 系统 就 不 文 持 
SysV IPC。 现 在 大 多 数 UNIX 系 操作 系统 , 包括 Linux, 都 支持 SysV IPC 了 , 但 过 去 则 并 非 如 此 ， 
也 许 正 是 这 种 历史 原因 造成 我 一 直 都 没有 去 接触 它 。 





























后 来 ，System V 与 BSD 之 间 的 对 峙 ， 随 着 双方 开始 吸收 对 方 的 功能 而 逐步 淡化 ， 再 往 后 ， 
严格 来 说 , 不 属于 System V 和 BSD 两 大 阵营 的 Linux 成 为 了 UNIX 系 操 作 系统 的 最 大 势力 ， 而 
经 的 对 贬 也 成 为 了 历史 ， 这 个 结局 恐怕 在 当时 是 谁 都 无 法 想象 的 吧 。 














说 到 底 ， 用 都 没 用 过 的 东西 要 给 大 家 介绍 实在 是 难 上 加 难 。 关 于 SysV IPC 的 用 法 ， 大 家 可 
以 在 Linux 中 参考 一 下 : 





# man svipc 


其 他 操作 系统 中 ， 也 可 以 从 创建 消息 队列 的 msgget 系统 调用 的 man 页 面 中 找到 相关 信息 。 





尺 套 接 字 























System V 所 提供 的 进程 间 通 信和 手段 是 Sysy IPC， 相 对 地 ，BSD 则 提供 了 套 接 字 的 方式 。 和 
其 他 进程 间 通 信 方 式 相 比 ， 套 接 字 有 一 些 优点 。 





























口 通信 对 象 不 仅 限于 同一 台 计 算 机 ， 或 者 说 套 接 字 本 身 主要 就 是 为 计算 机 间 的 通信 而 设 
计 的 。 

口 (和 SysV IPC 不 同 ) 套 接 字 也 是 一 种 文件 描述 符 ， 可 进行 一 般 的 输入 和 输出。 尤其 是 可 以 
使 用 select 系统 调用 ， 在 通常 VO 的 同时 进行 “等 待 ”， 这 一 点 非常 方便 。 
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口 套 接 字 在 进程 结束 后 会 由 操作 系统 自动 释放 ， 因 此 无 需 担 心 资 源 泄漏 的 问题 。 
口 套 接 字 〈 由 于 其 优秀 的 设计 ) 从 很 早 开始 就 被 吸收 进 System V 等 系统 了 ， 因 此 在 可 移植 
性 方面 的 顾虑 较 少 。 


现代 网 络 几乎 完全 依赖 于 套 接 字 。 各 位 所 使 用 的 几乎 所 有 服务 的 通信 都 是 基于 套 接 字 实 现 
的 ， 这 样 说 应 该 没有 什么 大 问题 。 


套 接 字 分 为 很 多 种 ， 其 中 具有 代表 性 的 包括 : 























口 TCP 套 接 字 
口 UDP 套 接 字 
口 UNIX 套 接 字 








TCP ( Transmission Control Protocol， 传 输 控 制 协议 ) 套 接 字 和 UDP (User Datagram 
Protocol， 用 户 数 据 报 协议 ) 套 接 字 都 是 建立 在 IP ( Internet Protocol， 网 际 协 议 ) 协议 之 上 的 上 
层 网 络 通信 套 接 字 。 这 两 种 套 接 字 都 可 用 于 以 网 络 为 媒介 的 计算 机 间 通 信 ， 但 它们 在 性 质 上 有 
一 些 区 别 。 




















TCP 套 接 字 是 一 种 基于 连接 的 、 具 备 可 靠 性 的 数据 流通 信 套 接 字 。 所 谓 基于 连接 ， 是 指 通 
信 的 双方 是 固定 的 ;而 所 谓 具备 可 靠 性 ,是 指 能 够 侦 测 数据 发 送 成 功 或 是 发 送 失败 ( 出 错 ) 的 状态 。 
































所 谓 数据 流通 信 ， 是 指 发 送 的 数据 是 作为 字 节 流 来 处 理 的 ， 和 通常 的 输入 输出 一 样 ， 不 会 
保存 写 入 的 数据 长 度 信息 。 

看 了 上 面 的 内 容 ， 大 家 可 能 觉得 这 些 都 是 理所当然 的 嘛 。 我 们 和 UDP 套 接 字 对 比 一 下 ， 就 
能 够 理解 其 中 的 区 别 了 。 

UDP 套 接 字 和 TCP 套 接 字 相反 ， 是 一 种 能 够 无 需 连 接 进行 通信 、 但 不 具备 可 靠 性 的 数据 报 
通信 和 套 接 字 。 所 谓 能 够 无 需 连 接 进 行 通信 ， 是 指 无 需 固 定 连 接 到 指定 对 象 ， 可 以 直接 发 送 数据 ; 
不 具备 可 牧 性 ， 是 指 可 能 会 出 现 中 途 由 于 网 络 状况 等 因素 导致 发 送 数据 丢失 的 情况 。 











在 数据 报 通 信 中 ， 发 送 的 数据 在 原则 上 是 能 够 保存 其 长 度 的 。 但 是 ， 在 数据 过 长 等 情况 下 ， 
发 送 的 数据 可 能 会 被 分 割 。 








先 不 说 无 连接 通信 这 一 点 ，UDP 的 其 他 一 些 性 质 可 能 会 让 大 家 感到 非常 难 用 。 这 是 因为 
UDP 几乎 是 原原本本 直接 使 用 了 作为 其 基础 的 IP 协议 。 相 反 ，TCP 为 了 维持 可 靠 性 , 在 全 协 
议 之 上 构建 了 各 种 机 制 。UDP 的 特点 是 结构 简单 ， 对 系统 产生 的 负荷 也 较 小 。 





























因此 ， 在 语音 通信 (如 耳 电话 等 ) 中 一 般 会 使 用 UDP， 因 为 通信 性 能 比 数据 传输 的 可 靠 性 
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要 更 加 重要 ， 也 就 是 说 ， 相 比 通话 中 包含 少许 杂音 来 说 ， 还 是 保证 较 小 的 通话 延迟 要 更 加 重要 。 




















TCP 套 接 字 和 UDP 套 接 字 都 是 通过 卫 地 址 和 端口 号 来 进行 工作 的 。 例 如 ，http 协议 中 
的 “http://www.rubyist.net:80/” 就 表示 与 www.rubyist.net (2012 年 3 月 27 日 当时 的 卫 地 址 为 
221.186.184.67 ) 所 代表 的 计算 机 的 80 号 端口 建立 连接 。 





人 UNIX 套 接 字 














同样 是 套 接 字 ，UNIX 套 接 字 和 TCP、UDP 套 接 字 相 比 ， 可 以 算是 一 个 异类 。 基 于 卫 的 套 
接 字 一 般 是 通过 主机 名 和 端口 号 来 识别 通信 对 象 的 ， 而 UNIX 套 接 字 则 是 在 UNIX 文件 系统 上 
创建 一 个 特殊 文件 ， 并 用 该 文件 的 路 径 进 行 识别 。 由 于 这 种 方式 使 用 的 是 文件 系统 ， 因 此 大 家 
可 以 看 出 ，UNIX 套 接 字 只 能 用 于 同一 台 计算 机 上 的 进程 间 通 信 。 


















































UNIX 套 接 字 并 不 是 基于 卫 的 套 接 字 ， 它 可 用 于 向 同一 人 台 计 算 机 上 其 他 进程 提供 服务 的 某 种 
服务 程序 。 例 如 有 一 种 叫做 canna 的 汉字 转换 服务 ， 就 是 通过 UNIX 套 接 字 来 接受 客户 端 连 接 的 。 


























仿 ZeroMQ 








在 进程 间 通 信 手 段 中 , 套 接 字 算是 非常 好 用 的 , 但 即便 如 此 , 在 考虑 对 工作 进行 “委派 ”时 ， 
其 易 用 性 还 并 不 理想 。 套 接 字 本 来 是 为 网 络 服务 器 的 实现 而 设计 的 ， 但 作为 构建 分 布 式 应 用 程 
序 的 手段 来 说 ， 却 显得 有 些 过 于 原始 了 。 

















ZeroMQ 就 是 为 了 解决 这 一 问题 而 诞生 的 ， 它 是 一 种 为 分 布 式 应 用 程序 开发 提供 进程 间 通 
信 功 能 的 库 。 
ZeroMQ 的 特点 在 于 灵活 的 通信 手段 和 丰富 的 连接 模型 ， 并 且 它 可 以 在 Linux 、Mac OS X、 


Windows 等 多 种 操作 系统 上 工作 ， 也 支持 由 多 种 语言 进行 访问 。ZeroMQ 所 支持 的 语言 列表 如 
表 1 所 示 。 





表 1 ZeroMQ 支 持 的 语言 一 览 

















Ada Lua CommonLisp Perl 
BASIC Node.js Erlang Python 
C Objective-C Go Racket 
C# 00C Haskell Ruby 
CH 二 PHP Java Scala 
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ZeroMQ 提供 了 下 列 底 层 通信 手段 。 无 论 使 用 哪 种 手段 ， 都 可 以 通过 统一 的 API 进行 访问 ， 
这 一 点 可 以 说 是 ZeroMQ 的 魅力 。 














DQ tcp 
DQ ipc 


DQ inproc 





口 multicast 








tcp 就 是 TCP 套 接 字 ， 它 使 用 主机 名 和 端口 号 进行 连接 。 根 据 TCP 套 接 字 的 性 质 ， 从 其 他 
计算 机 也 可 以 进行 连接 ， 但 由 于 ZeroMQ 不 存在 身份 认证 这 样 的 安全 机 制 ， 因 此 建议 大 家 不 要 
在 互联 网 上 公布 ZeroMQ 的 端口 号 。 














ipc 用 于 在 同一 台 计 算 机 上 进行 进程 间 通 信 ， 使 用 文件 路 径 来 进行 连接 。 实 际 通信 中 使 用 何 
种 方式 与 实现 有 关 ， 在 UNIX 系 操作 系统 上 采用 的 是 UNIX 套 接 字 ， 在 Windows 上 也 许 是 用 一 
般 套 接 字 来 通信 的 吧 。 


























inproc 用 于 同一 进程 中 的 线程 间 通 信 。 由 于 线程 之 间 是 共享 内 存 空间 的 ， 因 此 这 种 通信 方 
式 是 无 需 复制 的 。 使 用 inproc 通信 ， 可 以 在 活用 线程 的 同时 ， 避 免 麻 烦 的 数据 共享 ， 不 仅 通信 
效率 高 ， 编 写 的 程序 也 比较 易 读 。 


























multicast 是 一 种 采用 UDP 实现 的 多 播 通 信 。 为 了 实现 一 对 多 的 通信 ， 如 果 使 用 一 对 一 的 
TCP 方式 ， 则 需要 对 多 个 对 象 的 TCP 连接 反复 进行 通信 ， 但 如 果 使 用 原本 就 用 于 多 播 通信 的 
multicast， 就 可 以 避免 无 谓 的 重复 操作 。 




















不 过 ，UDP 通信 ， 尤 其 是 多 播 传输 ， 在 一 些 路 由 器 上 是 被 禁止 的 ， 因 此 这 种 方式 并 不 能 所 
向 披 靡 ， 这 的 确 是 个 难点 。 
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ZeroMQ 为 分 布 式 应 用 程序 的 构建 提供 了 丰富 多 彩 的 连接 模型 ， 主 要 有 以 下 这 些 。 


DREQ/REP 

口 PUB/SUB 

口 PUSH/PULL 
口 PAIR 





REQ/REP 是 REQUESTREPLY 的 缩写 ， 表 示 向 服务 器 发 出 请 求 (request )， 服 务 器 向 客户 
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客户 端 


端 返回 应 答 (reply ) 这 样 的 连接 模型 ( 图 1 )。 二 
-= 
作为 网 络 连 接 来 说 ， 这 种 方式 是 非常 常见 的 。 例 如 REQ 


HTTP 等 协议 ， 就 遵循 REQ/REP 模型 。 通 过 网 络 进行 ” 图 1 REQ/REP 模型 
务 器 发 布 ( publish 六 息 时 ,在 该 服务 器 上 注册 ( subscribe， 
订阅 ) 过 的 客户 端 都 会 收 到 该 信息 (图 2 )。 这 种 模型 在 和 























PUB/SUB 是 PUBLISH/SUBSCRIBE 的 缩写 ， 即 服 





函数 调用 的 RPC ( Remote Procedure Call ,远程 过 程 调 用 ) 
人 eal 
需要 向 大 量 客户 端 一 起 发 送 通知 ， 以 及 数据 分 发 部 署 等 


也 属于 这 一 类 。REQ/REP 是 一 种 双向 通信 。 
场合 非常 方便 。PUB/SUB 是 一 种 单 向 通信 。 图 2 PUB/SUB 模型 














PUSHPULL 是 向 队列 中 添加 和 取出 信息 的 一 种 模型 。 PUSH/PULL 模型 的 应 用 范围 很 广 ， 
如 果 只 有 一 个 数据 添加 方 和 一 个 数据 获取 方 的 话 ， 可 以 用 类 似 UNIX 管道 的 方式 来 使 用 (图 
3a )， 如 果 是 由 一 台 服 务 器 PUSH 信息 ， 而 由 多 台 客 户 端 来 PULL 的 话 ， 则 可 以 用 类 似 任务 队列 
的 方式 来 使 用 (图 3b )。 


在 图 3b 的 场景 中 ， 处 于 等 待 状态 的 任务 中 只 有 一 个 能 够 取得 数据 。 相 对 地 ，PUB/SUB 模 
型 中 则 是 所 有 等 待 的 进程 都 能 够 取得 数据 。 








反 过 来 说 ,如 果 有 多 个 进程 来 PUSH , 则 能 够 用 来 对 结果 进行 集约 (图 3c )。 和 PUB/SUB 一 样 ， 
PUSHPULL 也 是 一 种 单 向 通信 。 








| 上 企 务 A | | ”分 本 者 | 
| “任务 B | 工作 进程 工作 进 各 | 工作 进程 | 集约 者 
(a) 管 道 ( 一 对 一 ) (b) 任务 分 配 ( 一 对 多 ) (0) 任务 集约 ( 多 对 一 ) 





图 3 PUSH/PULL 模型 


PAIR 是 一 种 一 对 一 的 双向 通信 。 说 实话 ， 在 我 所 了 解 的 范围 内 ， 还 不 清楚 这 种 模型 应 该 如 
何 使 用 。 
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仿 ZeroMQ 的 安装 








首先 安装 ZeroMQ 库 的 主体 。 在 Debian 中 提供 的 软件 包 叫 做 libzmq-dev， 安 装 方法 如 下 : 
$ apt-get install libzmq-dev 器 


如 果 在 你 所 使 用 的 平台 上 没有 提供 二 进 制 软件 包 ， 也 可 以 从 http:/www.zeromdq.org/ 下 载 源 代码 
进行 编译 安装 。 截 止 到 2012 年 3 月 27 日 ， 其 最 新 版 本 为 2.1。 








ZeroMQ 的 标准 API 是 以 C 语言 方式 提供 的 ,但 C 语言 实在 太 繁 琐 了 ， 因 此 这 里 的 示例 程 
序 我 们 用 Ruby 来 编写 。Ruby 的 ZeroMQ 库 叫 做 zmq， 可 以 通过 RubyGems 进行 安装 。 在 安装 
ZeroMQ 基础 库 之 后 ， 运 行 





$ gem install zmq 器 


即 可 安装 ZeroMQ 的 Ruby 库 。 


饼 ZeroMQ 示例 程序 

















首先 ， 我 们 来 看 看 最 简单 的 REQ/REP 方式 。 图 4 是 用 Ruby 编写 的 REQ/REP 服务 器 。 在 
这 里 我 们 只 接受 来 自 本 地 端口 的 请 求 ， 如 果 将 127.0.0.1 的 部 分 蔡 换 成 “*” 就 可 以 接受 来 自任 
何 主机 的 请 求 了 。 客 户 端 程序 如 图 5 所 示 。 




















require "zmq" 








require ‘'zmq" context = ZMQ: :Context.new 
socket = context.socket(ZMQ::REQ) 
context = ZMQ::Context.new socketsconmeect tens / /OO ) 
socket = context.socket(ZMQ::REP) 
sockets bmde Ce/ /OO S000 To rm a ld) 
msig msgs ol 

loop do socket.send(msg) 

msg = socket.recy pmee .Semonogn msog Nn 

DID Col ens gm msg_in = socket.recy 

socket.send(msg) print "Received ", msg, "\n" 
end end 
图 4 ZeroMQ REO/REP 服务 器 加 5 ZeroMQ REQ/REP 客户 端 




















这 样 我 们 就 完成 了 一 个 万 能 echo 服务 器 及 其 相应 的 客户 端 。 


ZeroMQ 可 以 发 送 和 接收 任何 二 进 制 数据 , 如 果 我 们 发 送 JSON 和 MessagePack 字符 串 的 话 ， 
就 可 以 轻松 实现 一 种 RPC 的 功能 。 
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6.5 ZeroMQ 


要 进行 通信 ， 可 以 按 顺序 启动 图 4 和 图 5 的 程序 。 有 意思 的 是 ， 一 般 的 套 接 字 程 序 中 ， 必 
须 先 启动 服务 器 ,但 ZeroMQ 程序 中 ， 先 启动 客户 端 也 是 可 以 的 。 


ZeroMQ 是 按 需 连接 的 ， 因 此 当 连 接 对 象 尚未 初始 化 时 ， 客 户 端 会 进入 待机 状态 。 启 动 顺 
序 自由 这 一 点 非常 方便 ， 尤 其 是 PUB/SUB 和 PUSH/PULL 模型 的 连接 中 ， 如 果 所 有 的 服务 器 和 
客户 端 只 能 按照 一 定 顺序 来 启动 ， 那 制约 就 太 大 了 ， 而 ZeroMQ 则 可 以 将 我 们 从 这 样 的 制约 中 
解放 出 来 。 

此 外 ,ZeroMQ 还 可 以 同时 连接 多 个 服务 器 。 如 果 在 图 $ 程 序 的 第 5$ 行 , 即 connect 那 一 行 之 后 ， 
再 添加 一 行 相同 的 语句 〈 例如 只 改变 端口 号 )， 就 可 以 对 两 个 服务 器 交 蔡 发 送 请 求 。 通 过 这 样 的 
方式 ， 可 以 很 容易 实现 负载 的 分 配 。 





A 






































下 面 我 们 再 来 看 看 用 PUSH/PULL、PUB/SUB 模型 实现 的 一 个 简单 的 聊天 程序 。 这 个 示例 
由 3 个 程序 构成 。 程 序 1 (图 6) 是 聊天 发 言 
用 的 程序 。 通 过 将 命令 行 中 输入 的 字符 PUSH 
给 服务 器 来 “发 言 "。 程序 2 (图 7) 是 显示 发 
言 用 的 程序 。 通 过 SUBSCRIBE 的 方式 来 获取 
服务 器 PUBLISH 的 发 言 信息 ， 并 显示 在 屏幕 socket .send(ARGV[0]) 
上 。 实 际 的 聊天 系统 中 ， 客 户 端 应 该 是 由 程序 ”图 6 聊天 发 言 程序 
1 和 程序 2 结合 而 成 的 。 


程序 3 ( 图 8 ) 是 聊天 服务 右 ， 它 通过 PULL 来 接收 发 言 数据 ,， 并 将 其 原原本本 PUBLISH 
出 去 ， 几 是 SUBCRIBE 到 该 服务 器 的 客户 端 ， 都 可 以 收 到 发 言 内 容 ( 图 9 )。 无 论 有 多 少 个 客 
户 端 连接 到 服务 器 ，ZeroMQ 都 会 自动 进行 管理 ， 因 此 程序 的 实现 就 会 比较 简洁 。 


























require 'zmq" 





context = ZMQ::Context.new 
socket = context.socket(ZMQ::PUSH) 
sioekereomnmect( tepe/ /2 OO: O00 









































require "zmq" 


context = ZMQ::Context.new 

socket = context.socket(ZMQ::SUB) 
socketbseomnmeec te Ee pm/ /OO /OT 
# 显示 执行 SUBSCRIBE 操 作 并 对 消息 进行 取舍 选择 
# 空 字符 串 表 示 全 部 获取 的 意思 
socket.setsockopt(ZMQ: :SUBSCRIBE, "") 


loop do 
puts socket.recy 
end 








到 7 聊天 显示 程序 




















require 'zmq" 


context = ZMQ::Context.new 

receiver = context.socket(ZMQ::PULL) 
pecenmver nd ep /ON OR :00 
clients = context.socket(ZMQ::PUB) 
clemnb se md ue p/n/ OR O00) 


loop do 
msg = receiver.recy 
printf "Got %s¥n", msg 
clients.send(msg) 

end 


图 8 聊天 服务 器 程序 
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sO* 多 核 时 代 的 编程 


服务 器 端 | 


客户 端 








图 9 ”聊天 程序 的 工作 方式 














必 小 结 


ZeroMQ 是 一 个 用 简单 的 API 实现 进程 间 通 信 的 库 。 和 直接 使 用 套 接 字 相 比 ， 它 在 一 对 多 、 
多 对 多 通信 的 实现 上 比较 容易 。 在 对 多 CPU 的 运用 中 ， 横 跨 多 台 计 算 机 的 多 进程 间 通 信和 是 不 可 
或 缺 的 ， 因 此 在 需要 考虑 可 扩展 性 的 软件 开发 项 目 中 ， 像 ZeroMQ 这 样 的 进程 间 通 信 库 ， 今 后 
应 该 会 变 得 越 来 越 重要 。 
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“多 核 时 代 的 编程 ”后 记 


有 一 句 话 在 这 本 书 中 说 过 很 多 次 ， 各 位 读者 可 能 也 已 经 听 腻 了 ， 不 过 在 这 里 我 还 是 想 
再 说 一 次 : 现在 是 多 核 时 代 。 

所 谓 多 核 ， 原 本 是 指 在 一 块 芯片 上 封装 多 个 CPU 核心 的 意思 。 截 至 2012 年 4 月 ， 
般 能 够 买 到 的 电脑 基本 上 都 搭载 了 Intel Core i5 等 多 核 CPU 芯片 ， 这 一 事实 也 是 这 个 时 代 
的 写照 。 


本 书 中 所 说 的 多 核 ， 并 不 单 指 多 核 CPU 的 使 用 ， 大 多 数 情 况 下 指 的 是 “运行 一 个 软 
件 系统 可 以 利用 多 个 CPU 核心 ”这 个 意思 。 在 这 样 的 场景 中 ， 并 不 局 限于 一 块 芯片 。 由 多 
块 芯片 ， 甚 至 是 多 人 台 计 算 机 组 成 的 环境 ， 也 可 以 看 作 是 多 核 。 按 照 这 样 的 理解 ， 云 计算 环 
境 可 以 说 是 一 种 典型 的 多 核 环 境 吧 。 


多 核 环境 中 编程 的 共同 点 在 于 ， 在 传统 的 编程 风格 中 ， 程 序 是 顺序 执行 的 ， 因 此 只 能 
用 到 单独 一 个 核心 。 而 要 充分 发 挥 多 核 的 优势 ， 就 必须 通过 某 些 方法 ， 积 极 运用 多 个 CPU 
的 处 理 能 力 。 


本 书 中 介绍 了 一 些 活用 多 个 CPU 的 方法 ， 包 括 UNIX 进程 的 活用 、 通 过 异步 IO 实现 
并 行 化 消息 队列 等 ,这 些 都 是 非常 有 前 途 的 技术 。 然 而 ,UNIX 进程 ( 在 基本 的 使 用 方法 中 ) 
只 能 用 在 一 台 计 算 机 中 ; 而 异步 IO 虽然 能 提高 效率 ， 但 其 本 身 无 法 运用 多 核 ; 消息 队列 
目前 也 没有 强大 到 能 够 支持 数 百 、 数 千 节 点 规模 系统 的 构建 。 


从 超级 计算 机 的 现状 进行 推测 ， 在 不 远 的 将 来 ， 云 计算 环境 中 的 “多 核 系统 ”就 能 
达到 数 万 节点 、 数 十 万 核心 的 规模 。 要 构建 这 样 的 系统 ， 用 现在 的 技术 是 可 以 实现 的 ， 但 
并 非 易 事 。 


因此 ， 在 这 一 方面 ， 今 后 还 需要 更 大 的 进步 
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欢迎 加 入 


图 灵 社 区 


电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 ， 在 许多 出 版 界 同行 还 在 犹豫 往复 的 时 候 ， 图 灵 社 区 已 经 
采取 实际 行动 拥抱 这 个 出 版 业 巨 变 。 相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势 。 它 
不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 〈 即 使 有 的 书 纸 质 版 是 黑白 印 
刷 的 ) 。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 


图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 
交 稿 、 编 辑 网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 
“敏捷 出 版 ”， 它 可 以 让 读者 以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 
以 往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 
交流 更 为 方便 ， 可 以 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 的 质量 。 


开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写作 功能 ， 协 助 你 实现 自 出 版 的 梦想 。 你 可 以 联合 二 三 好 
友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 ， 这 极 大 地 降低 了 出 
版 的 门槛 。 成 熟 的 书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 


图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 有 意 翻译 哪 本 
图 书 ， 欢 迎 来 社区 申请 。 只 要 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 
要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 需要 有 坚强 的 毅力 的 。 


读者 交流 平台 
在 图 灵 社 区 ， 读 者 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评 论 ， 以 各 种 方式 与 


作 译 者 、 编 辑 人 员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 银子 。 欢 迎 
大 家 积极 参与 社区 开展 的 访谈 、 审 读 、 评 选 等 多 种 活动 ， 赢 取 银 子 ， 可 以 换 书 哦 ! 
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